'ASR' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

3. ASR파이프라인 구현(파이프라인 설계 + 오디오 개념)

기초적인 ASR 파이프 라인오디오: 오디오 소스를 받아온다.(백 or 로컬 마이크)백엔드에서 받아올 경우 WebSocket에서 받아옴.VAD: 발화에서 입력 신호가 아닌 것들은 걸러낸다.(침묵 감지)SpeechBuffer: 버퍼 안에 입력 신호를 받아 저장해둔다.Whisper: whisper모델에 해당 신호를 넣어 텍스트로 변환한다.결과 반환: 결과를 전송한다.즉, 위와 같은 코드를 작성하기 위한 기초적인 지식을 공부하고자 한다.오디오 소스PCM(Pulse Code Modulation)아날로그 오디오를 디지털로 표현하는 방식이다.기본적으로 소리는 공기의 연속적인 압력의 변화이다. → 아날로그 오디오그러나 컴퓨터는 해당 신호를 다룰 수 없기에 숫자 배열로 변환한다. → 디지털여기서 사용되는 것이 PCM(P..

프로젝트 2026. 4. 14. 19:06

3. ASR 모델의 도메인 특화 용어 인식 오류율 감소를 위한 논문 탐구

도메인 특화 용어 Fine-Tuning의 필요성이번에 진행하는 프로젝트에서 사용하는 Whisper모델이 도메인 특화된 용어는 인식 오류율이 높다.심지어 관련 프로젝트가 멘토링이므로 관련전문 지식을 가진 멘토링을 진행할 경우 희귀단어가 많이 검출되어 성능이 많이 감소할 가능성이 우려된다.따라서 해당 Fine-Tuning을 하기 위한 방식으로는 관련 단어를 사용하는 데이터셋을 통해 학습시키는 방식이 필요하다.그러나 관련 도메인에 치우친것도 아니기 때문에, 관련 음성 데이터셋을 무작정 때려넣기 힘들다는 문제가 있었다.이를 위해 관련 논문 여러개를 탐구해본다.희귀 단어 리스트를 통한 음성 합성 → Fine-Tuning[Using synthesized speech to train speech recognizers..

프로젝트 2026. 4. 4. 14:20

2. 인공지능 음성 인터페이스의 지연시간/인지심리학적 분석

턴테이킹에서의 지연시간의 중요성Human turn-taking development: A multi-faceted review of turn-taking comprehension and production in the first years of life - PMC인간의 의사소통은 협력적, 상호작용적 인프라인 ‘Conversational Turn-taking’을 기반으로 구축되어있음.상호적, 교대적 역할 교환, 발화의 겹침 회피, 상대적으로 짧은 응답시간이 특징적임.이 과정의 지연시간은 인간이 인공지능의 응답을 평가하는 척도가 됨(RTF, Real Time Factor)사실상 해당 턴 테이킹에서는 전환 적기의 최근 증거는발화를 마칠 때 시선을 피함손 제스처를 보냄 등의 제스처 → 그러나 우리 프로젝트엔 의..

프로젝트 2026. 4. 2. 15:24

논문) Toward Low-Latency End-to-End Voice Agents for TelecommunicationsUsing Streaming ASR, Quantized LLMs, and Real-Time TTS (1) - 음성 에이전트 파이프라인의 레이턴시 감소 방법

(PDF) Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS (2025) | Vignesh Ethiraj→ 25년 8월 5일 논문통신산업에서의 저지연(low-latency) 종단 간 (end-to-end)음성 에이전트 파이프라인을 제안함.서론음성신호를 텍스트로 바꾸는 (ASR), 텍스트를 이해하는 (NLU), 답변을 생성하는 (LLM), 다시 음성으로 바꾸는 (TTS)의 모든 과정이 개별적으로는 점차 빨라졌음. 그러나 모든 단계를 이어서 사용할 경우 아직 시간이 길어져 실제 대화 같은 자연스러운 소통이 어려움.실시간 음성 인터페이스는 위 기..

AI공부/논문 리뷰 2026. 3. 21. 14:21

이전 Prev 1 Next 다음

수달이네 기술 블로그

티스토리툴바