| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- LangGraph
- 에이전트
- 머신러닝
- 트랜스포머
- python 기초
- RDBMS
- Python
- 소프트웨어 개발
- 데이터엔지니어
- SQL
- 딥러닝
- Transformer
- 데이터 시각화
- 알고리즘
- 기초
- UMAP
- CNN
- 캐글
- 자연어처리
- 랭그래프
- 객체지향
- RNN
- CLIP
- 정보처리기사
- TTS
- 생성형 인공지능
- ASR
- python기초
- 힙정렬
- dementional reduction
Archives
- Today
- Total
수달이네 기술 블로그
3. ASR파이프라인 구현(파이프라인 설계 + 오디오 개념)
기초적인 ASR 파이프 라인오디오: 오디오 소스를 받아온다.(백 or 로컬 마이크)백엔드에서 받아올 경우 WebSocket에서 받아옴.VAD: 발화에서 입력 신호가 아닌 것들은 걸러낸다.(침묵 감지)SpeechBuffer: 버퍼 안에 입력 신호를 받아 저장해둔다.Whisper: whisper모델에 해당 신호를 넣어 텍스트로 변환한다.결과 반환: 결과를 전송한다.즉, 위와 같은 코드를 작성하기 위한 기초적인 지식을 공부하고자 한다.오디오 소스PCM(Pulse Code Modulation)아날로그 오디오를 디지털로 표현하는 방식이다.기본적으로 소리는 공기의 연속적인 압력의 변화이다. → 아날로그 오디오그러나 컴퓨터는 해당 신호를 다룰 수 없기에 숫자 배열로 변환한다. → 디지털여기서 사용되는 것이 PCM(P..
프로젝트
2026. 4. 14. 19:06