오늘 진행 상황 요약
1. ElevenLabs TTS 기능 구현 및 테스트 완료
-
core/text_to_speech.py:- ElevenLabs API를 사용하여 텍스트를 음성으로 변환.
- 생성된 오디오 파일의 경로와 길이를 반환하는 기능 구현.
.env파일을 통해 API 키를 안전하게 관리.configs/voice_config.json파일에서 사용할 목소리 ID를 불러옴.soundfile라이브러리를 사용하여 생성된 오디오 파일의 길이를 정확히 측정.
-
tests/test_text_to_speech.py:- TTS 기능에 대한 단위 테스트 작성 및 성공적으로 통과 확인.
voice_config.json에서 목소리 ID를 가져와 테스트.- 생성된 오디오 파일의 길이 확인.
-
configs/voice_config.json:- TTS에 사용할 목소리 ID와 관련 정보를 JSON 형식으로 저장 및 관리.
2. ASR (OpenAI Whisper) 기능 제외 결정 및 관련 파일 정리
- AI가 생성한 스크립트와 TTS 오디오 길이를 기반으로 자막을 생성하기로 결정.
- ASR 기능은 현재 사용하지 않기로 함.
-
세부 작업:
README.md: ASR 관련 내용 삭제, 스크립트 기반 자막 생성으로 수정, 프로젝트 구조, 설치 방법, API 키 설정 등 업데이트.-
requirements.txt:# openai-whisper 패키지 주석 처리 # openai-whisper==2023.x.x -
core/speech_to_text.py:# speech_to_text.py # ASR 기능은 현재 미사용 # def transcribe_audio(audio_path): # # OpenAI Whisper 관련 코드 (주석 처리됨) # pass
3. README.md 가독성 개선
- 전체적인 내용 다듬기.
- 마크다운 포매팅 적용으로 가독성 향상 (특히 프로젝트 구조 부분).
'A_V' 카테고리의 다른 글
| AI 숏츠 비디오 자동 생성기: 2025년 6월 8일 전체 요약 (1) | 2025.06.08 |
|---|---|
| AI 숏츠 비디오 자동 생성기 - 2025년 6월 2일 작업 요약 (1) | 2025.06.03 |
| 숏츠 영상 제작 어플리케이션 계획 (2) (3) | 2025.05.29 |
| AI 숏츠 영상 제작 어플리케이션 계획 (0) | 2025.05.29 |