'VisionTransformer' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

1. ViT(Vision Transformer

ViT(Vision Transformer)이미지 인식 문제를 기존의 CNN이 아닌 Transformer구조로 해결한 모델이미지를 작은 Patch로 나누어 이를 토큰으로 취급해당 토큰을 Self-Attention으로 학습하여 문맥을 이해한다.장점멀리 떨어진 영역 간의 상관관계를 한번에 파악 가능데이터가 충분하다면 CNN기반 모델을 능가할 수 있음.이미지 크기가 달라져도 패치와 그 수를 변경하는 등으로 유연하게 대응가능이미지를 “시퀀스”로써 바라본다는 관점 전환으로 비전, 자연어 간의 경계를 허물었다.구조이미지 입력(input image)모델에 원본 이미지를 입력. CNN과 달리 convolution연산을 진행하지 않고 그대로 사용.이미지를 패치단위로 분할(Divide Image into Pathces)기존..

AI공부/Vision 2026. 3. 9. 13:03

이전 Prev 1 Next 다음

수달이네 기술 블로그

티스토리툴바