수달이네 기술 블로그

6. BERT와 GPT 본문

학교공부/생성형 인공지능

6. BERT와 GPT

슬픈 수달이 2025. 10. 12. 20:46

BERT

Ai 모델 트리

양방향 인코더 트랜스포머이다.

  • 다운스트림 NLP작업에 사용한다.
  • Encoder만 사용한 모델이다.

유사한 Pre-training 모델의 아키텍처

Bert:양방향 모델, 마스킹 언어모델 사용

GPT: 단방향 모델

임베딩

이전에 배웠던 임베딩과 별 차이 없음

토큰임베딩: 단어벡터를이용하여 후속 분류 작업

세그먼트 임베딩: 두 종류의 문장을 구분

포지션 임베딩: 순서 정보 기억

Pre-training→ Fine-Tuning

레이블이 없는 텍스트로부터 양방향 표현을 이용하여 사전 학습 진행

양방향 언어 컨텍스트를얻기위해 두가지 작업을위해 설계

Pre-traning작업

마스크언어 모델: 마르코프 체인을 사용하는 단방향 인코딩이나, 왼쪽,오른쪽 어디에서 시작하더라도 가짜 양방향 인코딩이므로 성능에 큰 영향을미친다.

완성 메커니즘: 단어의 15프로를 무작위로 마스킹 한 후 다음인코더의 마지막 숨겨진 상태를 사용하고 완료 예측을 위해 SoftMax레이어를 통과하도록 함.

Masked Language Model

최소화방법: 마스크로 직접 대체하는 대신 다른 무작위화 수행

80% 단어를 MASK화

10%: 단어를 임의 단어로 바꾸기

10%: 바꾸지 않음

  • 위로 인해 트린스포머 인코더는 어떤 단어가 예측 요청을 받았고 어떤 단어가 무작위로 대체되었는지 알지 못해 각 입력 단어에 대해 문맥 임베딩을 유지해야하기 때문에 전체적인 능력을 향상시킴

Fine-Tuning

단일문장/문장 쌍 분류 작업: [CLS}의 숨겨진 상태를 직접 사용하여 소프트맥스한 레이어로 예측을 수행

QA작업: 질문과 답변 세그먼트를 연결하고 마지막답변 세그먼트의 숨겨진 상태 벡터를 사용하여 한 단어가 답변의 시작과 끝일 확률을 계산한 다음 예측 수행

시퀀스 태그 작업: 시퀀스의 모든 토큰의 마지막 숨겨진 상태를 분류 레이어에 직접 입력함(자동회귀 X)

BERT 장점

전이학습: 적은 양의 추가학습 데이터로 뛰어난 성능

양방향정보: 문맥을 좌우로 이해하여 깊은 문맥 파악

문장 레벨 이해: 감정분석, 의도파악등의 작업에 유리

다양한 언어 지원: 다국어 모델로 확장 가능

단점

큰 모델 크기: 용량과 리소스가 큼

추론 속도: 크기때문에 속도가 느림

전이학습 데이터 의존성: 사전 훈련된 모델에 사용된 데이터에 의존

문장길이 제한: 토큰이 커지면 잘라내야함.

GPT모델

  • 생성형 사전-훈련된 트랜스포머 아키텍쳐를 기반으로 한 대화형 인공지능 모델
  • GPT모델은 텍스트 생성,번역, 요약을 NLP모델 텍스트 데이터의 패턴과 의미를 이해하고 생성
  • 4의 경우 수억개의 주어진 문맥에서 자연스러운 텍스트를 생성하고 이해하는능력
  • unsuprevised learning(비지도 학습)

<aside> 💡

Pre-training: Unsupervised

Fine-tuning: supervised

</aside>

ELMo

주어진 토큰을 사용해서 forward, backward를 사용해서 단어를 예측

GPT는 Decoder를 사용해서 forward마스킹을 사용해 단어를 예측

GPT 아키텍처

트랜스포머의 기본 구조는 그대로이나, 안에 들어가는 양, 데이터가 많아짐

매핑: 크로스엔트로피(CE)를 계산하는 작업을 사용

목표: Gradient descent 사용하여 모델의 매개 변수를 조정

입력표현: 텍스트 데이터(토큰단위로 분할, 임베딩된 벡터형태로 모델에 제공)

출력표현: 단어 예측, 누락된 부분 채우기, 전체문장 생성, 출력도 토큰단위로 생성, 임베딩된 벡터형태

GPT의 장점

자연스러운 텍스트 생성

대화형 응답능력: 챗봇 같은 역할 수행 가능

프로토타이핑: 특정 작업에 필요한 대화형 시스템을 상대적으로 빠르게 프로토 타이핑 가능

  • 다양한 장르로 사용 가능

크기및 파라미터 수에 따른 성능 조절: 유연성,높은 성능 제공

높은 문맥 이해 능력: 매우 긴 문맥 이해, 처리 가능

전이 학습 가능성: BERT와 같은 장점

단점

무작위성, 일관성 부족: 확률적 방식으로 텍스트를 생성하기 때문에 다른 결과가 나올수 있음

문맥파악 제한성: 긴 문맥을 처리할 때 제한이 생길 수 있음.

비즈니스 도메인 특화의 어려움: 지식 통합하기 어려움

대화의 지속성 부족: 이전 대화 내용 기억이 어려움

발생 가능한 편향성: 훈련 데이터로 인해 이를 반영 가능

Fine-Tuning

훈련 모델을 특정 작업에 맞게 새로운 데이터를 추가로 학습하는 기술(전이학습의 한 형태)

  • 적은 데이터로 뛰어난 성능을 얻을 수 있음

사용처

감정 분석: 감정별 출력 계층을 추가하여 감성 데이터셋 학습

텍스트 분류: 실제 레이블 간의 불일치를 최소화

개체명 인식:텍스트의 단어, 하위 단어에 각각의 엔티티 레이블에 태그를 추가하는 출력 레이어로 확장하여 실시

질의 응답: 예측 답변과 실제 답변 사이의 차이를 최소화 하는 방식으로 매개변수 조정

텍스트 생성: 예시가 포함된 데이터 셋에서 모델을 미세 조정, 스타일, 톤, 구조를 매개변수로 조정

장점

적은 데이터로 높은 성능

일반화 능력 향상

시간 비용 절감: 데이터 수집 시간

다양한 언어 지원: 다국어로 확장함

단점

시간과 비용: 시간과 계산 비용이 일반적 모델훈련보다 큰 경우가 있음

작업에 적합하지 않은 사전 훈련 모델: 사전 훈련 모델 자체가 특정 작업에 적합하지 않을 수 있기 때문에 모델을 잘 골라야함

새로운 작업 적용 어려움: 미세 조정 모델을 적용하기 어려움

대화형 GPT모델(ChatGPT)

실시간 상호작용을 통해 모델을 개선하고 사용자 요구를 효과적으로 충족시키기 위해 인간 피드백을 활용하는 기계학습 모델

  • Interactive GPT모델
    • 실시간 상호작용
    • 사용자 중심
    • 인간피드백 활용
    • fine-tuning

1. 미세조정을 사용한 학습

학습을 위한 데이터셋은 인간 AI트레이너에게 제공받음

2. 트레이너가 최상, 촤악까지 응답의 순위를 매김

해당 데이터는 보상 모델을 학습하는데 사용됨.

3. PPO를 사용한 미세조정

Proximal Policy Optimization(PPO): 강화학습중 PPO를 사용해 미세조정과 모델 업데이트를 함

  • 강화학습의 종류

응용

고객지원 챗봇

가상 도우미(AI비서)

콘텐츠 제작 및 아이디어 제안

언어 번역

가능성

  • 더 나은 의사 소통
  • 실시간 정보와 지원 제공
  • 콘텐츠 생성, 창작 지원
  • 교육, 자기학습

휴먼 피드백 학습

인간의 피드백으로 기계 학습 모델을 향상시키는 학습 방식

  • 사전 훈련 > 인간 피드백 수집 > fine-tuning> 평가

종류

지도학습: 정확한 레이블이 주어진 데이터를 사용하여 모델을 훈련시키는 방식

강화 학습: 모델이 환경과 상호작용하며 행동을 결정하고 그 결과에 따라 보상을 받아 학습하는 방식

대화형 학습: 사용자 간의 대화를 통해 지속적으로 모델을 개선하는 방식 사용자 피드백으로 모델을 조정, 개선

사람피드백의 역할

모델의 성장, 적응령, 성능향상에 기여함

  • 최적화 유도: 더 나은 정확도와 관련성을 갖도록 함
  • 정보에 근거한 의사결정: 올바른 응답의 예와 잘못된 응답의 예를 제공

단점

편향성: 사람의 문화, 사회적 편향성에의해 의도치 않게 편견을 불러일으킬 수 있음

확장성: 사용자 피드백의 관리가 쉽지 않음

주관성

데이터 수집과 확인

사이클

  1. AI모델 상호작용
  2. 사람 피드백 입력
  3. 피드백 반영
  4. 모델 구체화
  5. 지속적 학습

구현

데이터 수집: 실제 상호작용, 사용자 행동, 전문가 의견에서 관련 데이터 수집

설명: 인간 전문가가 데이터에 주석을 달아 레이블, 수정사항, 등급을 제공해 원하는 결과로 향함

모델 업데이트: 사람의 피드백을 통합해 가중치, 편향성, 알고리즘을 조정함