10. Text to Image(언어기반 영상 생성) + diffusion

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

10. Text to Image(언어기반 영상 생성) + diffusion 본문

학교공부/생성형 인공지능

10. Text to Image(언어기반 영상 생성) + diffusion

슬픈 수달이 2025. 11. 16. 14:21

DALL-E

트랜스포머 모델 아키텍처를 사용한 언어 지침을 통한 이미지 생성

시각, 언어 정보를 결합해 영상 생성, 조작한다.

언어처리부분: 입력된 언어 명령 임베딩, 트랜스포머의 인코더레이어에 통과
시각 정보 처리 부분: 영상 데이터 또한 인코딩 필요
- 트랜스포머 인코더 : 시각- 언어 피처 추출 (언어+ 시각정보)
영상 생성 및 손실함수 : 언어 처리 부분에서 추출한 시각-언어 피처를 활용해 디코더 레이어에 통과
- 트랜스포머 디코더: 피처에서 영상 생성

과거는 convolution기반 최근은 트랜스포머 기반이 주로 나온다.

언어처리 부분

Bert는 긴 인코더 기반으로 긴 문장이해 가능

입력된 언어 명령을 임베딩함.
각 단어는 토큰 임베딩으로 표현되며, 세그먼트와 위치 임베딩은 네트워크를 통과하기 전 토큰 임베딩에 추가

시각 정보 처리 부분

영상 데이터를 인코딩하기 위해 사용하는 부분

트랜스포머 인코더

언어 처리 부분과 시각정보 처리 부분에서 나온 피처들이 결합

시각-언어 피처 추출

트랜스포머 디코더

생성되는 영상의 각 프레임을 예측하거나 조합함.

시각, 언어 피처를 활용해 영상을 생성
오른족 그림은 Diffusion인데 성능은 좋으나 메모리가 매우 많이듦.

영상 생성, 손실함수

생성된 영상을 실제 영상과 비교하여 손실 함수를 계산, 최적화

MSE, 적대적 손실, 지각손실
KL Divergence Loss(생성된 이미지가 원하는 분포에서 샘플링되도록 권장)

VAE(변형 자동 인코더)

디코더 네트워크를 수정하여 다양한 해상도로 이미지를 생성하도록 설계

모델의 기본 구조 유지

PGGAN(점진적 성장GAN)

점진적으로 고해상도 이미지를 생성하도록 설계됨.

학습진행도에 따라 디테일과 복잡성 추가

멀티스케일GAN

여러 스케일의 이미지를 동시에 생성

조건부 이미지 생성

이미지크기와 해상도, 혹은 특정 조건을 제공하여 다양한 스케일의 이미지 생성

Diffusion모델

랜덤 노이즈(거의 형태가 없는 상태)에서 새로운 이미지로 확장해감

만약 이방향이 아니다 하면 reverse로 가고 다시 시도 즉, 많은 trial error가 필요해 리소스가 늘어남
그러나 많은 컴퓨팅 리소스를 사용하더라도 효과가 좋음

Transfer Learning

일종의 pre-trained모델을 이용하는 방법

사전 학습된 확산 모델 미세조정

동적 스케일링

일부 확산 모델을 이용

스케일링을 동적으로 한다. > 노이즈의 양을 적응적으로 조정

Diffusion모델

원래 diffusion은 기계학습에서 사용되던 영상 생성, 노이즈 제거 작업에 활용되던 모델이었음

데이터 내의 정보, 노이즈가 확산되는 과정을 모방하는 개념을 기반으로 만든 것.

그러나, 높은 품질의 샘플을 생성하고 복잡한 데이터 분포를 다루는 능력이 뛰어나 주목됨,

개요

forward, reverse 프로세스로 구성되어있음.

채택될 경우 forward, 반려될경우 reverse로 감
위의 과정으로 점진적으로 이미지를 개선해나감.
forward: 개선, reverse: 복구

forward process

Markov체인의 각 단계에서 분산의 Gaussian 노이즈를 도입하여 분포가 q(xt|xt-1)인 새로운 잠복 변수를 생성하는 것.

reverse process

역방향으로 공식을 적용하여줌.

확산모델의 적용

이미지 노이즈 제거
이미지 초 고해상도로 개선
이미지 보정
이미지 합성 등

문제점

계산 복잡성으로 인한 모델 크기:계산이 너무 복잡해 GPU같은 강력한 하드웨어 리소스가 필요함
훈련 요구 사항: 이미지 패턴 학습을 위해 광범위한 훈련 데이터셋이 필요

'학교공부 > 생성형 인공지능' 카테고리의 다른 글

9. 이미지 캡셔닝 (0)	2025.11.07
8. StyleGAN과 가짜 탐지 네트워크 (1)	2025.10.29
7. 생성형 인공지능(GAN, VAE, Diffusion 모델 등) (0)	2025.10.15
6. BERT와 GPT (0)	2025.10.12
5. 영상트랜스포머의 응용 (0)	2025.10.09

'학교공부/생성형 인공지능' Related Articles

수달이네 기술 블로그

10. Text to Image(언어기반 영상 생성) + diffusion 본문

10. Text to Image(언어기반 영상 생성) + diffusion

DALL-E

언어처리 부분

시각 정보 처리 부분

트랜스포머 인코더

트랜스포머 디코더

영상 생성, 손실함수

VAE(변형 자동 인코더)

PGGAN(점진적 성장GAN)

조건부 이미지 생성

Diffusion모델

Transfer Learning

동적 스케일링

Diffusion모델

개요

forward process

reverse process

확산모델의 적용

문제점

'학교공부 > 생성형 인공지능' 카테고리의 다른 글

티스토리툴바