A_V
ElevenLabs API (TTS) 테스트 ! AI 숏츠 프로젝트 일일 요약 (3)
Solo.dev
2025. 5. 31. 00:09
오늘 진행 상황 요약
1. ElevenLabs TTS 기능 구현 및 테스트 완료
-
core/text_to_speech.py:- ElevenLabs API를 사용하여 텍스트를 음성으로 변환.
- 생성된 오디오 파일의 경로와 길이를 반환하는 기능 구현.
.env파일을 통해 API 키를 안전하게 관리.configs/voice_config.json파일에서 사용할 목소리 ID를 불러옴.soundfile라이브러리를 사용하여 생성된 오디오 파일의 길이를 정확히 측정.
-
tests/test_text_to_speech.py:- TTS 기능에 대한 단위 테스트 작성 및 성공적으로 통과 확인.
voice_config.json에서 목소리 ID를 가져와 테스트.- 생성된 오디오 파일의 길이 확인.
-
configs/voice_config.json:- TTS에 사용할 목소리 ID와 관련 정보를 JSON 형식으로 저장 및 관리.
2. ASR (OpenAI Whisper) 기능 제외 결정 및 관련 파일 정리
- AI가 생성한 스크립트와 TTS 오디오 길이를 기반으로 자막을 생성하기로 결정.
- ASR 기능은 현재 사용하지 않기로 함.
-
세부 작업:
README.md: ASR 관련 내용 삭제, 스크립트 기반 자막 생성으로 수정, 프로젝트 구조, 설치 방법, API 키 설정 등 업데이트.-
requirements.txt:# openai-whisper 패키지 주석 처리 # openai-whisper==2023.x.x -
core/speech_to_text.py:# speech_to_text.py # ASR 기능은 현재 미사용 # def transcribe_audio(audio_path): # # OpenAI Whisper 관련 코드 (주석 처리됨) # pass
3. README.md 가독성 개선
- 전체적인 내용 다듬기.
- 마크다운 포매팅 적용으로 가독성 향상 (특히 프로젝트 구조 부분).