서론
요즘은 유익한 정보를 동영상의 형태로 제공되는 경우가 무척 많다.
하지만 해당 발표회에 직접 참석하는 것은 고사하고 동영상을 시청하는 것도 시간에 여유가 없으면 보기가 힘들다.
그래서 동영상에서 정보를 간편하게 얻어낼 수 있도록 동영상이나 오디오 파일에서 텍스트를 추출하는 프로그램 Voice2Text를 개발했다.
Voice2Text
https://github.com/project-alttl/voice2text/releases/tag/v1.0.0
Release Voice2Text v1.0.0 · project-alttl/voice2text
Voice2Text v1.0.0 Latest Merge branch 'main' of https://github.com/project-alttl/voice2text
github.com
Voice2Text는 OpenAI의 Whisper를 사용하여 영상, 오디오 파일에서 텍스트를 추출한다.
한국어, 영어, 일본어, 중국어 4개 언어로 제공되며, 저장 폴더를 지정한 후 흰 공간에 mp4나 mp3를 끌어다 놓으면 텍스트를 추출한 결과를 저장한다.
사용법
Whisper 모델의 로드를 기다린 후, 저장 폴더를 선택하고 난 뒤, 텍스트를 추출할 파일들을 드래그하고 기다리면 된다.
참고로 프로그램의 구동을 위해서는 VRAM 6GB 이상의 엔비디아 그래픽 카드가 필요하며 엔비디아 CUDA 11.8 버전이 설치되어 있어야 한다.
자세한 사항은 깃허브 저장소에서 확인할 수 있다.
https://github.com/orgs/project-alttl/repositories
Project Alttl
Project Alttl has one repository available. Follow their code on GitHub.
github.com