| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- python 기초
- 데이터 시각화
- Transformer
- 랭그래프
- 딥러닝
- 에이전트
- 힙정렬
- TTS
- 트랜스포머
- dementional reduction
- 생성형 인공지능
- UMAP
- 자연어처리
- RNN
- LangGraph
- 데이터엔지니어
- ASR
- 기초
- 알고리즘
- SQL
- 캐글
- python기초
- RDBMS
- Python
- CLIP
- CNN
- 객체지향
- 정보처리기사
- 머신러닝
- 소프트웨어 개발
Archives
- Today
- Total
수달이네 기술 블로그
1. ViT(Vision Transformer
ViT(Vision Transformer)이미지 인식 문제를 기존의 CNN이 아닌 Transformer구조로 해결한 모델이미지를 작은 Patch로 나누어 이를 토큰으로 취급해당 토큰을 Self-Attention으로 학습하여 문맥을 이해한다.장점멀리 떨어진 영역 간의 상관관계를 한번에 파악 가능데이터가 충분하다면 CNN기반 모델을 능가할 수 있음.이미지 크기가 달라져도 패치와 그 수를 변경하는 등으로 유연하게 대응가능이미지를 “시퀀스”로써 바라본다는 관점 전환으로 비전, 자연어 간의 경계를 허물었다.구조이미지 입력(input image)모델에 원본 이미지를 입력. CNN과 달리 convolution연산을 진행하지 않고 그대로 사용.이미지를 패치단위로 분할(Divide Image into Pathces)기존..
AI공부/Vision
2026. 3. 9. 13:03