| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- 생성형 인공지능
- 정보처리기사
- python 기초
- 데이터엔지니어
- RNN
- 기초
- 알고리즘
- Python
- 자연어처리
- 트랜스포머
- CLIP
- CNN
- Transformer
- 랭그래프
- 딥러닝
- 소프트웨어 개발
- python기초
- LangGraph
- 힙정렬
- 머신러닝
- 객체지향
- SQL
- RDBMS
- 캐글
- dementional reduction
- ASR
- UMAP
- 데이터 시각화
- TTS
- 에이전트
- Today
- Total
수달이네 기술 블로그
복습(CLIP구조)CLIP은 인코더 두 개(텍스트-transformer, 비전ViT)가 대비학습을 하며 학습하는 구조import torchimport umapimport matplotlib.pyplot as pltfrom matplotlib.offsetbox import OffsetImage, AnnotationBboximport numpy as npfrom PIL import Imagefrom transformers import CLIPProcessor, CLIPModelfrom datasets import load_dataset모델, 프로세서model = CLIPModel.from_pretrained('openai/clip-vit-base-patch32')processor = CLIPProcessor..
구현import torchimport numpy as npimport matplotlib.pyplot as pltfrom matplotlib.offsetbox import OffsetImage, AnnotationBboximport seaborn as snsfrom PIL import Imagefrom datasets import load_datasetfrom transformers import CLIPProcessor, CLIPModelfrom sklearn.metrics.pairwise import cosine_similarityopenai/clip-vit-base-patch32 · Hugging Face모델은 HuggingFace에 올려져 있는 CLIP-ViTbase모델을 사용한다.MODEL_NAM..
CLIP모델은 이전 모델에 비해 이해하는데 약간 어려움이 있었다. 지금은 조금이나마 이해한 상황이기에 글로 남기고, 이후에 논문도 읽고 리뷰할 예정이다.CLIPLearning Transferable Visual Models From Natural Language Supervision(CLIP논문)이미지와 텍스트를 같은 의미 공간으로 정렬하기 위해 대비 학습을 사용하는 Pre-trained Vision-Language 모델이전에서 학습한 멀티모달의 모델 중 Visual-Language모델이다.이미지 인코더와 텍스트 인코더를 각각 학습(Dual Encoder구조) → 올바른 이미지-텍스트 쌍은 가깝게, 관련 없는 쌍은 멀어지게 학습(의미적 대응 관계 형성)위와 같은 구조 덕분에 zero-shot 분류가 가능..
Multimodal Learning(멀티모달 학습)Multimodal Learning서로 다른 여러 모달리티의 데이터(이미지, 텍스트, 음성, 영상 등)을 함께 학습하는 방식이미지를 입력으로 받아 텍스트로 설명하기영상과 음성을 함께 활용해 감정을 인식하기각 모달리티가 가진 상호 보완적 정보를 결합 → 단일 모달리티보다 풍부한 표현, 높은 성능을 기대Unimodal model하나의 데이터 모달리티만을 입력으로 받는 모델입력, 출력이 단일 형태로 고정 → 구조 단순, 학습과 해석에 용이특정 데이터 유형에 최적화된 성능Multitask Learning하나의 모델이 서로 다른 작업(task)을 동시에 학습하도록 설계하는 방법하나의 신경망이 감성분류, 주제분류를 동시에 수행하는 등. (모달리티는 하나)여러 작업에..