수달이네 기술 블로그

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약 본문

AI공부/자연어처리

15. PLM(Pre-trained Language Model) / BERT, GPT, T5 요약

슬픈 수달이 2026. 3. 8. 11:49

PLM(Pre-trained Language Model)

대량의 텍스트 데이터를 사전 학습하여 자연어 이해와 생성 능력을 갖춘 인공지능 모델

  • 대규모 데이터에서 단어의 의미, 문맥을 미리 학습하고, 이후 특정 작업에 맞게 Fine-Tuning함
  • BERT, GPT, T5등

BERT(Bidirectional Encoder Representations from Transformers)

https://arxiv.org/abs/1810.04805?source=post_page

구글에서 개발한 사전 훈련된 자연어 처리 모델**(Encoder Only)**

  • Transformer 아키텍처 기반으로 양방향 문맥 이해 가능 → 정교한 언어 이해
    • Transformer인코더 구조를 활용해 앞뒤 문맥을 동시에 참조하는 것.
      • 디코더의 casual mask는 예측 시 미래를 보지 못하게 하는 것으로 다름
      • 인코더에선 문장을 이해할 땐 미래 단어를 차단할 필요가 없다는 것. (임베딩 벡터 공간에 단어를 정확히 집어 넣을 수 있음)
    • bidirectional LSTM과 다른 deep bidirection을 강조함.
      • LSTM은 두개의 LSTM으로 양쪽에서 읽고 연결하고 합산함.(단방향 두개 합침)
      • BERT는 Self-Attention메커니즘으로 모든 단어가 앞뒤 문맥을 동시 참조
    • GPT의 경우 단방향(왼쪽 → 오른쪽으로 단어를 예측)
      • GPT는 Self-Attention메커니즘을 쓰지만 디코더 기반이므로 Casual Mask로 미래를 못 봄
      • BERT는 인코더 기반 모델이므로 양방향 문맥을 학습 가능
  • MLM(Masked Language Model) 사전학습 기법
    • 입력 문장에서 무작위로 15%토큰을 선택해 가린 후 앞뒤 문맥을 활용해 예측 → Mask로 가리거나 랜덤 단어, 원래 단어 그대로 등 변화도 주어 과적합 방지
  • NSP(Next Sentence Prediction)
    • 문장이 실제로 이어지는 문맥인지 아닌지 학습. → 두 문장을 쌍으로 입력해 첫 문장이 두 번째 문장의 다음 문장인지 여부 예측

BERT는 인코더만 사용한 모델이므로 문장 이해에 주로 쓰인다.

GPT(Generative Pre-trained Transformer)

https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf

OpenAI에서 개발한 사전 훈련된 자연어 처리 모델**(Decoder Only)**

  • Transformer 아키텍처 기반으로 한 자동 회귀(Auto-regressive)모델.
    • 디코더만으로 문장을 학습 → 단어를 기반으로 다음 단어를 생성하는 언어모델을 목표
      • 문장을 토큰화 하여 디코더에 넣고 예측하는 방식(대규모 비라벨 텍스트 코퍼스)
      • 따라서 casual mask를 씌우는 디코더가 적합
      • 또한, 인코더를 사용하지 않아 구조가 단순함.
    • 텍스트를 생성하는데 특화되어, 챗봇, 스토리 생성, 코드 자동완성 등에 적합
  • 생성적 사전 학습(Generative Pre-Training)
    • 비라벨 텍스트로 다음 단어 예측을 반복해 언어를 배우는 과정
    • 실제 문장에서 casual mask를 적용해 예측해 나가서 정답이 존재
  • 판별적 미세 조정(Discriminative Fine-Tuning)
    • 사전학습 이후 라벨이 붙은 데이터로 특정 태스크에 맞게 모델을 조정함.

T5(Text-to-Text Transfer Transformer)

https://arxiv.org/abs/1910.10683

구글이 발표한 대규모 언어 모델(Encoder-Decoder/seq2seq)

  • 모든 NLP 태스크를 텍스트→텍스트로 변환
    • 번역, 요약, 질의응답, 분류 모든 것을 텍스트 변환 문제로 재정의
    • 텍스트 입력 > 텍스트 출력
  • C4(Cleaned Common Crawl Corpus) 대규모 웹 텍스트 데이터셋
  • 사전학습: 대규모 비라벨 텍스트로 언어 일반 능력 습득
  • 미세조정: 특정 태스크에 맞게 라벨 데이터로 조정.
  • 전이학습의 범용성을 확장시키는 계기가 됨.

Hugging Face 모델 허브

https://huggingface.co/models

허깅페이스는 BERT, GPT등 다양한 사전 학습된 AI모델을 제공하는 공개 플랫폼.

  • 모델 검색: 자연어 처리, 컴퓨터 비전, 음성 인식 등 다양한 분야의 모델 검색
  • 모델 이용: PyTorch, TensorFlow등을 이용해 손쉽게 활용 가능
  • 모델 설명: 설명, 예제 코드, 라이선스 정보 등이 제공되어 쉽게 활용 가능

Hugging Face를 활용한 토큰화

  • Hugging Face의 각 모델은 모델과 매핑되는 토크나이저가 존재한다.
    • A모델일 경우 A모델의 토크나이저를 사용해야 한다.
    • 토크나이저가 Vocabulary정보를 담고 있기 때문에 다를 경우 이해하지 못하는 경우가 생김.
    • 즉, 인덱싱이 A모델에선 3번이 사과인데 B모델은 32번 일수 있는 것.