| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- CNN
- RNN
- 트랜스포머
- 에이전트
- 머신러닝
- 랭그래프
- 데이터 시각화
- ASR
- 힙정렬
- 자연어처리
- 딥러닝
- CLIP
- 정보처리기사
- 기초
- 소프트웨어 개발
- 데이터엔지니어
- Transformer
- python 기초
- LangGraph
- TTS
- SQL
- 캐글
- Python
- UMAP
- 객체지향
- RDBMS
- dementional reduction
- python기초
- 알고리즘
- 생성형 인공지능
Archives
- Today
- Total
수달이네 기술 블로그
15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약 본문
PLM(Pre-trained Language Model)
대량의 텍스트 데이터를 사전 학습하여 자연어 이해와 생성 능력을 갖춘 인공지능 모델
- 대규모 데이터에서 단어의 의미, 문맥을 미리 학습하고, 이후 특정 작업에 맞게 Fine-Tuning함
- BERT, GPT, T5등

BERT(Bidirectional Encoder Representations from Transformers)
https://arxiv.org/abs/1810.04805?source=post_page
구글에서 개발한 사전 훈련된 자연어 처리 모델**(Encoder Only)**
- Transformer 아키텍처 기반으로 양방향 문맥 이해 가능 → 정교한 언어 이해
- Transformer인코더 구조를 활용해 앞뒤 문맥을 동시에 참조하는 것.
- 디코더의 casual mask는 예측 시 미래를 보지 못하게 하는 것으로 다름
- 인코더에선 문장을 이해할 땐 미래 단어를 차단할 필요가 없다는 것. (임베딩 벡터 공간에 단어를 정확히 집어 넣을 수 있음)
- bidirectional LSTM과 다른 deep bidirection을 강조함.
- LSTM은 두개의 LSTM으로 양쪽에서 읽고 연결하고 합산함.(단방향 두개 합침)
- BERT는 Self-Attention메커니즘으로 모든 단어가 앞뒤 문맥을 동시 참조
- GPT의 경우 단방향(왼쪽 → 오른쪽으로 단어를 예측)
- GPT는 Self-Attention메커니즘을 쓰지만 디코더 기반이므로 Casual Mask로 미래를 못 봄
- BERT는 인코더 기반 모델이므로 양방향 문맥을 학습 가능
- Transformer인코더 구조를 활용해 앞뒤 문맥을 동시에 참조하는 것.
- MLM(Masked Language Model) 사전학습 기법
- 입력 문장에서 무작위로 15%토큰을 선택해 가린 후 앞뒤 문맥을 활용해 예측 → Mask로 가리거나 랜덤 단어, 원래 단어 그대로 등 변화도 주어 과적합 방지
- NSP(Next Sentence Prediction)
- 문장이 실제로 이어지는 문맥인지 아닌지 학습. → 두 문장을 쌍으로 입력해 첫 문장이 두 번째 문장의 다음 문장인지 여부 예측
BERT는 인코더만 사용한 모델이므로 문장 이해에 주로 쓰인다.
GPT(Generative Pre-trained Transformer)
https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
OpenAI에서 개발한 사전 훈련된 자연어 처리 모델**(Decoder Only)**
- Transformer 아키텍처 기반으로 한 자동 회귀(Auto-regressive)모델.
- 디코더만으로 문장을 학습 → 단어를 기반으로 다음 단어를 생성하는 언어모델을 목표
- 문장을 토큰화 하여 디코더에 넣고 예측하는 방식(대규모 비라벨 텍스트 코퍼스)
- 따라서 casual mask를 씌우는 디코더가 적합
- 또한, 인코더를 사용하지 않아 구조가 단순함.
- 텍스트를 생성하는데 특화되어, 챗봇, 스토리 생성, 코드 자동완성 등에 적합
- 디코더만으로 문장을 학습 → 단어를 기반으로 다음 단어를 생성하는 언어모델을 목표
- 생성적 사전 학습(Generative Pre-Training)
- 비라벨 텍스트로 다음 단어 예측을 반복해 언어를 배우는 과정
- 실제 문장에서 casual mask를 적용해 예측해 나가서 정답이 존재
- 판별적 미세 조정(Discriminative Fine-Tuning)
- 사전학습 이후 라벨이 붙은 데이터로 특정 태스크에 맞게 모델을 조정함.
T5(Text-to-Text Transfer Transformer)
https://arxiv.org/abs/1910.10683
구글이 발표한 대규모 언어 모델(Encoder-Decoder/seq2seq)
- 모든 NLP 태스크를 텍스트→텍스트로 변환
- 번역, 요약, 질의응답, 분류 모든 것을 텍스트 변환 문제로 재정의
- 텍스트 입력 > 텍스트 출력
- C4(Cleaned Common Crawl Corpus) 대규모 웹 텍스트 데이터셋
- 사전학습: 대규모 비라벨 텍스트로 언어 일반 능력 습득
- 미세조정: 특정 태스크에 맞게 라벨 데이터로 조정.
- 전이학습의 범용성을 확장시키는 계기가 됨.
Hugging Face 모델 허브
허깅페이스는 BERT, GPT등 다양한 사전 학습된 AI모델을 제공하는 공개 플랫폼.
- 모델 검색: 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야의 모델 검색
- 모델 이용: PyTorch, TensorFlow등을 이용해 손쉽게 활용 가능
- 모델 설명: 설명, 예제 코드, 라이선스 정보 등이 제공되어 쉽게 활용 가능
Hugging Face를 활용한 토큰화
- Hugging Face의 각 모델은 모델과 매핑되는 토크나이저가 존재한다.
- A모델일 경우 A모델의 토크나이저를 사용해야 한다.
- 토크나이저가 Vocabulary정보를 담고 있기 때문에 다를 경우 이해하지 못하는 경우가 생김.
- 즉, 인덱싱이 A모델에선 3번이 사과인데 B모델은 32번 일수 있는 것.
'AI공부 > 자연어처리' 카테고리의 다른 글
| 1. CLIP 모델 이해 (0) | 2026.03.13 |
|---|---|
| 14. 트랜스포머 구현(한국어 감성 분류 모델) (0) | 2026.03.07 |
| 13. 트랜스포머(포지셔널 인코딩, 피드포워드 신경망, 잔차연결...) (0) | 2026.03.06 |
| 12. Attention 연산 구현 (0) | 2026.03.05 |
| 11. Attention (0) | 2026.03.04 |