오랜만에 쓰는 글!
이번에는 2024년 공개SW 개발자대회 후기에 대해 간략하게 작성하려고 한다.
내가 출품한 작품은 "PAFTS : Library That Preprocessing Audio For TTS"이다. 간략하게 설명하면 원시데이터를 TTS 모델 학습에 사용할 수 있도록 도와주는 라이브러리이다.
보통 TTS모델학습에 사용할 데이터는 노이즈 및 배경음악이 없는 음성 파일이어야 하고, 음성에 해당하는 텍스트 값(파일)이 있어야 한다.
예를들어 1박2일 방송 영상에서 강호동님의 음성을 수집하여 TTS모델을 만든다고 하자.
우선 1박2일 영상의 노이즈 및 배경음악을 지워야 한다. 그리고 영상의 대화 내용에서 강호동님이 말하는 부분만 잘라서 수집해야 한다. 마지막으로 수집한 강호동님 음성에 해당하는 텍스트를 기록해야 한다.
이러한 과정을 수작업으로 하려면 매우 번거럽고 시간이 많이 걸린다. 실제로 전에 캐릭터 TTS 프로젝트 진행할 때 이 작업만 2달이 걸렸다...(정신 나갈 것 같았어요)
그당시에도 일부분은 자동화 하도록 프로그램을 개발해서 시간을 줄이긴 했지만 그래도 시간이 많이 걸렸다. 후에 다른 TTS개발자들이나 커뮤니티를 돌아다녀보니 다들 데이터 수집&가공에 제일 많은 시간을 소요한다고 했다.
이러한 문제를 해결하기 위해 PAFTS 라이브러리를 개발하게 되었다!
2023년도에 라이브러리를 개발했지만 완전 자동화는 아니였어서 아쉬운 부분이 있었는데, 2024년에 새로운 기능들을 추가해서 완전 자동화로 영상에서 각 화자별로 데이터를 수집&처리 할 수 있게 되었다!
라이브러리에 대한 자세한 내용 및 구조는 README에 있으니 관심있으면 와서 구경하세요!
https://github.com/harmlessman/PAFTS
GitHub - harmlessman/PAFTS: PAFTS : Library That Preprocessing Audio For TTS.
PAFTS : Library That Preprocessing Audio For TTS. Contribute to harmlessman/PAFTS development by creating an account on GitHub.
github.com
1차 합격하고 2차 발표평가를 갔다.
나름 발표 준비도 하고 발표자료도 잘 정리해서 갔는데 막상 발표하려니까 엄청 떨렸다.
처음에는 심사위원 2~3명 정도가 심사하는 줄 알았는데 발표장에 들어가니까 심사하시는 분들이 10명 정도 계셨다.
발표가 끝나고 질의응답 및 피드백 시간이 있었는데, 심사위원 중 한분이 STT 모델 관련 질문이나 텍스트 파일에 대한 조언을 날카롭게 하셨다. 좀 어버버 했지만 그런대로 잘 대답하긴 했다.
그 뒤로 수상했다는 연락을 받았고, 시상식까지 다녀왔다.
(햄버거 구매 가능한 식권을 받았는데, 난 1인 팀이라 혼자 이것저것 시켜서 먹었다. 맛있더라...)
시상식 끝나고 집가는데 저 판(?)을 버리기는 아까워서 집까지 가져왔다. 큰 판을 가지고 다니니 뭔가 시선이 집중되는 느낌이 들었다 ㅋㅋ
이번엔 좋은 기회로 이런 대회를 참가할 수 있었고, 상까지 받았다. 기분 좋기도 했고 증명할 수 있는 계기가 되어서 스스로 뿌듯했다.
2025년도에도 이런 대회나 활동을 참여할 기회가 있다면 한 번 참여해보고 싶다.
이렇게 해서 간단한 후기글을 마치겠다.
'일상&잡담' 카테고리의 다른 글
2024년 공개SW 개발자대회 수상! (1) | 2024.11.14 |
---|---|
생존 신고 + ? (0) | 2024.01.06 |
대충 생존 신고 느낌의 글 (0) | 2023.03.22 |
노트북 사망 (0) | 2022.05.08 |