15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약

Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약 본문

AI공부/자연어처리

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약

슬픈 수달이 2026. 3. 8. 11:49

PLM(Pre-trained Language Model)

대량의 텍스트 데이터를 사전 학습하여 자연어 이해와 생성 능력을 갖춘 인공지능 모델

대규모 데이터에서 단어의 의미, 문맥을 미리 학습하고, 이후 특정 작업에 맞게 Fine-Tuning함
BERT, GPT, T5등

BERT(Bidirectional Encoder Representations from Transformers)

https://arxiv.org/abs/1810.04805?source=post_page

구글에서 개발한 사전 훈련된 자연어 처리 모델**(Encoder Only)**

Transformer 아키텍처 기반으로 양방향 문맥 이해 가능 → 정교한 언어 이해
- Transformer인코더 구조를 활용해 앞뒤 문맥을 동시에 참조하는 것.
  - 디코더의 casual mask는 예측 시 미래를 보지 못하게 하는 것으로 다름
  - 인코더에선 문장을 이해할 땐 미래 단어를 차단할 필요가 없다는 것. (임베딩 벡터 공간에 단어를 정확히 집어 넣을 수 있음)
- bidirectional LSTM과 다른 deep bidirection을 강조함.
  - LSTM은 두개의 LSTM으로 양쪽에서 읽고 연결하고 합산함.(단방향 두개 합침)
  - BERT는 Self-Attention메커니즘으로 모든 단어가 앞뒤 문맥을 동시 참조
- GPT의 경우 단방향(왼쪽 → 오른쪽으로 단어를 예측)
  - GPT는 Self-Attention메커니즘을 쓰지만 디코더 기반이므로 Casual Mask로 미래를 못 봄
  - BERT는 인코더 기반 모델이므로 양방향 문맥을 학습 가능
MLM(Masked Language Model) 사전학습 기법
- 입력 문장에서 무작위로 15%토큰을 선택해 가린 후 앞뒤 문맥을 활용해 예측 → Mask로 가리거나 랜덤 단어, 원래 단어 그대로 등 변화도 주어 과적합 방지
NSP(Next Sentence Prediction)
- 문장이 실제로 이어지는 문맥인지 아닌지 학습. → 두 문장을 쌍으로 입력해 첫 문장이 두 번째 문장의 다음 문장인지 여부 예측

BERT는 인코더만 사용한 모델이므로 문장 이해에 주로 쓰인다.

GPT(Generative Pre-trained Transformer)

https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf

OpenAI에서 개발한 사전 훈련된 자연어 처리 모델**(Decoder Only)**

Transformer 아키텍처 기반으로 한 자동 회귀(Auto-regressive)모델.
- 디코더만으로 문장을 학습 → 단어를 기반으로 다음 단어를 생성하는 언어모델을 목표
  - 문장을 토큰화 하여 디코더에 넣고 예측하는 방식(대규모 비라벨 텍스트 코퍼스)
  - 따라서 casual mask를 씌우는 디코더가 적합
  - 또한, 인코더를 사용하지 않아 구조가 단순함.
- 텍스트를 생성하는데 특화되어, 챗봇, 스토리 생성, 코드 자동완성 등에 적합
생성적 사전 학습(Generative Pre-Training)
- 비라벨 텍스트로 다음 단어 예측을 반복해 언어를 배우는 과정
- 실제 문장에서 casual mask를 적용해 예측해 나가서 정답이 존재
판별적 미세 조정(Discriminative Fine-Tuning)
- 사전학습 이후 라벨이 붙은 데이터로 특정 태스크에 맞게 모델을 조정함.

T5(Text-to-Text Transfer Transformer)

https://arxiv.org/abs/1910.10683

구글이 발표한 대규모 언어 모델(Encoder-Decoder/seq2seq)

모든 NLP 태스크를 텍스트→텍스트로 변환
- 번역, 요약, 질의응답, 분류 모든 것을 텍스트 변환 문제로 재정의
- 텍스트 입력 > 텍스트 출력
C4(Cleaned Common Crawl Corpus) 대규모 웹 텍스트 데이터셋
사전학습: 대규모 비라벨 텍스트로 언어 일반 능력 습득
미세조정: 특정 태스크에 맞게 라벨 데이터로 조정.
전이학습의 범용성을 확장시키는 계기가 됨.

Hugging Face 모델 허브

https://huggingface.co/models

허깅페이스는 BERT, GPT등 다양한 사전 학습된 AI모델을 제공하는 공개 플랫폼.

모델 검색: 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야의 모델 검색
모델 이용: PyTorch, TensorFlow등을 이용해 손쉽게 활용 가능
모델 설명: 설명, 예제 코드, 라이선스 정보 등이 제공되어 쉽게 활용 가능

Hugging Face를 활용한 토큰화

Hugging Face의 각 모델은 모델과 매핑되는 토크나이저가 존재한다.
- A모델일 경우 A모델의 토크나이저를 사용해야 한다.
- 토크나이저가 Vocabulary정보를 담고 있기 때문에 다를 경우 이해하지 못하는 경우가 생김.
- 즉, 인덱싱이 A모델에선 3번이 사과인데 B모델은 32번 일수 있는 것.

'AI공부 > 자연어처리' 카테고리의 다른 글

1. CLIP 모델 이해 (0)	2026.03.13
14. 트랜스포머 구현(한국어 감성 분류 모델) (0)	2026.03.07
13. 트랜스포머(포지셔널 인코딩, 피드포워드 신경망, 잔차연결...) (0)	2026.03.06
12. Attention 연산 구현 (0)	2026.03.05
11. Attention (0)	2026.03.04

'AI공부/자연어처리' Related Articles

수달이네 기술 블로그

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약 본문

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약

PLM(Pre-trained Language Model)

BERT(Bidirectional Encoder Representations from Transformers)

GPT(Generative Pre-trained Transformer)

T5(Text-to-Text Transfer Transformer)

Hugging Face 모델 허브

'AI공부 > 자연어처리' 카테고리의 다른 글

티스토리툴바