| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- 트랜스포머
- 생성형 인공지능
- 딥러닝
- 객체지향
- 소프트웨어 개발
- Transformer
- 힙정렬
- CLIP
- 알고리즘
- RNN
- 자연어처리
- 데이터엔지니어
- 데이터 시각화
- RDBMS
- 에이전트
- TTS
- dementional reduction
- SQL
- python기초
- Python
- python 기초
- CNN
- 캐글
- UMAP
- 랭그래프
- 기초
- ASR
- 정보처리기사
- 머신러닝
- LangGraph
Archives
- Today
- Total
수달이네 기술 블로그
4. VAD(Voice Activity Detection)
VAD(Voice Activity Detection)지금 들어오는 소리가 사람의 음성인지 소음인지 판별하는 모듈이다.무음구간, 소음구간을 모두 전사시키면불필요한 GPU연산소음이 엉뚱한 텍스트로 전사발화 단위 조정이 힘들어 LLM에 넘길 타이밍을 잡지 못함.EnergyVAD(에너지 기반)RMS를 통해 신호의 평균적인 에너지를 측정한다.class EnergyVAD: def is_speech(self, pcm_float32: np.ndarray) -> bool: rms = np.sqrt(np.mean(pcm_float32 ** 2)) return rms > self.thresholdpcm_float32 값을 받음 → 해당 값이 0.2(기본 임계점)이 넘으면 출력하도록 설정신호: [-0.1, 0.3, -0...
프로젝트
2026. 4. 15. 15:47