| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- TTS
- ASR
- 알고리즘
- 랭그래프
- python 기초
- 생성형 인공지능
- dementional reduction
- CNN
- LangGraph
- 기초
- 에이전트
- 트랜스포머
- 객체지향
- 소프트웨어 개발
- 정보처리기사
- Python
- 힙정렬
- 머신러닝
- RDBMS
- SQL
- 데이터 시각화
- 캐글
- 자연어처리
- 데이터엔지니어
- UMAP
- Transformer
- python기초
- CLIP
- 딥러닝
- RNN
Archives
- Today
- Total
수달이네 기술 블로그
1. Whisper Fine-Tuning에 대해
Whisper를 소개합니다 | OpenAI이번에 캡스톤 프로젝트로 음성만을 활용한 AI방송 진행자를 제작하려 한다. 이 과정에서 ASR에 사용하는 중요한 API인 whisper를 어떻게 fine-tuning하고, 어떻게 성능을 향상시킬지에 대한 조사이다.Whisper Fine-TuningWhisper란?OpenAI에서 지원하는 웹에서 여러 언어, 다중 작업에 거쳐 수집한 68만 시간 분량의 지도 데이터로 훈련된 자동 음성 인식(ASR)시스템이런 방대하고 다양한 데이터셋을 활용해 억양, 배경소음, 기술적 언어에 대한 정확성을 향상시킴.단순한 엔드투엔드 접근방식, 인코더-디코더 트랜스포머 구조입력: 입력 오디오가 30초 길이의 청크로 나누어 지고, 로그-멜 스펙토그램으로 변환된 후 인코더로 넘어감디코더: 일..
프로젝트
2026. 4. 1. 21:23