본문 바로가기

프로젝트 알뜰

음성에서 텍스트를 추출하는 프로그램 Voice2Text

728x90

서론

 

요즘은 유익한 정보를 동영상의 형태로 제공되는 경우가 무척 많다.

 

하지만 해당 발표회에 직접 참석하는 것은 고사하고 동영상을 시청하는 것도 시간에 여유가 없으면 보기가 힘들다.

 

그래서 동영상에서 정보를 간편하게 얻어낼 수 있도록 동영상이나 오디오 파일에서 텍스트를 추출하는 프로그램 Voice2Text를 개발했다.

Voice2Text

 

https://github.com/project-alttl/voice2text/releases/tag/v1.0.0

 

Release Voice2Text v1.0.0 · project-alttl/voice2text

Voice2Text v1.0.0 Latest Merge branch 'main' of https://github.com/project-alttl/voice2text

github.com

 

Voice2Text는 OpenAI의 Whisper를 사용하여 영상, 오디오 파일에서 텍스트를 추출한다.

 

한국어, 영어, 일본어, 중국어 4개 언어로 제공되며, 저장 폴더를 지정한 후 흰 공간에 mp4나 mp3를 끌어다 놓으면 텍스트를 추출한 결과를 저장한다.

사용법

 

Whisper 모델의 로드를 기다린 후, 저장 폴더를 선택하고 난 뒤, 텍스트를 추출할 파일들을 드래그하고 기다리면 된다.

 

참고로 프로그램의 구동을 위해서는 VRAM 6GB 이상의 엔비디아 그래픽 카드가 필요하며 엔비디아 CUDA 11.8 버전이 설치되어 있어야 한다.

 

자세한 사항은 깃허브 저장소에서 확인할 수 있다.

 

https://github.com/orgs/project-alttl/repositories

 

Project Alttl

Project Alttl has one repository available. Follow their code on GitHub.

github.com

 

728x90