A_V

ElevenLabs API (TTS) 테스트 ! AI 숏츠 프로젝트 일일 요약 (3)

Solo.dev 2025. 5. 31. 00:09
오늘 진행 상황 요약

오늘 진행 상황 요약

1. ElevenLabs TTS 기능 구현 및 테스트 완료

  • core/text_to_speech.py:
    • ElevenLabs API를 사용하여 텍스트를 음성으로 변환.
    • 생성된 오디오 파일의 경로와 길이를 반환하는 기능 구현.
    • .env 파일을 통해 API 키를 안전하게 관리.
    • configs/voice_config.json 파일에서 사용할 목소리 ID를 불러옴.
    • soundfile 라이브러리를 사용하여 생성된 오디오 파일의 길이를 정확히 측정.
  • tests/test_text_to_speech.py:
    • TTS 기능에 대한 단위 테스트 작성 및 성공적으로 통과 확인.
    • voice_config.json에서 목소리 ID를 가져와 테스트.
    • 생성된 오디오 파일의 길이 확인.
  • configs/voice_config.json:
    • TTS에 사용할 목소리 ID와 관련 정보를 JSON 형식으로 저장 및 관리.

2. ASR (OpenAI Whisper) 기능 제외 결정 및 관련 파일 정리

  • AI가 생성한 스크립트와 TTS 오디오 길이를 기반으로 자막을 생성하기로 결정.
  • ASR 기능은 현재 사용하지 않기로 함.
  • 세부 작업:
    • README.md: ASR 관련 내용 삭제, 스크립트 기반 자막 생성으로 수정, 프로젝트 구조, 설치 방법, API 키 설정 등 업데이트.
    • requirements.txt:
      # openai-whisper 패키지 주석 처리
      # openai-whisper==2023.x.x
    • core/speech_to_text.py:
      # speech_to_text.py
      # ASR 기능은 현재 미사용
      # def transcribe_audio(audio_path):
      #     # OpenAI Whisper 관련 코드 (주석 처리됨)
      #     pass

3. README.md 가독성 개선

  • 전체적인 내용 다듬기.
  • 마크다운 포매팅 적용으로 가독성 향상 (특히 프로젝트 구조 부분).