Notice

Recent Posts

Recent Comments

Tags more

Archives

관리 메뉴

수달이네 기술 블로그

3. ASR 모델의 도메인 특화 용어 인식 오류율 감소를 위한 논문 탐구 본문

프로젝트

슬픈 수달이 2026. 4. 4. 14:20

이번에 진행하는 프로젝트에서 사용하는 Whisper모델이 도메인 특화된 용어는 인식 오류율이 높다.

심지어 관련 프로젝트가 멘토링이므로 관련전문 지식을 가진 멘토링을 진행할 경우 희귀단어가 많이 검출되어 성능이 많이 감소할 가능성이 우려된다.

따라서 해당 Fine-Tuning을 하기 위한 방식으로는 관련 단어를 사용하는 데이터셋을 통해 학습시키는 방식이 필요하다.

그러나 관련 도메인에 치우친것도 아니기 때문에, 관련 음성 데이터셋을 무작정 때려넣기 힘들다는 문제가 있었다.

이를 위해 관련 논문 여러개를 탐구해본다.

아마존 Science에서 발표한 논문에선 수만시간의 사람목소리+전사 텍스트 쌍을 학습시키기 위한 상황에서 특정 도메인의 데이터를 TTS로 생성해 학습시키는 실험을 했다.

해당 논문서에서도 희귀 단어가 포함된 음성데이터를 대량으로 구하기 어렵다는 점 TTS(Text-to-Speech)를 활용한 데이터 증강 기법을 사용했다.(Synthetic)

해당 논문에선 추가적으로

위의 내용들을 전체적으로 더한 결과로 BWER을 실제 목소리에 매우 근접한 20.93까지 감소시켰다.

결과적으로 TTS로 음성을 학습시키는 것이 데이터가 없는 도메인 특화된 ASR을 만드는데 도움이 된다는 것을 알았다. 관련 프로젝트를 진행할 때, 사용자의 비율을 통해 도메인 데이터를 확보하는 것이 중요해보인다.

4. VAD(Voice Activity Detection) (0)	2026.04.15
3. ASR파이프라인 구현(파이프라인 설계 + 오디오 개념) (0)	2026.04.14
2. 인공지능 음성 인터페이스의 지연시간/인지심리학적 분석 (0)	2026.04.02
1. Whisper Fine-Tuning에 대해 (0)	2026.04.01
1. 멀티클라우드(도커) (0)	2025.10.12

'프로젝트' Related Articles