수달이네 기술 블로그

0. 강화학습 본문

AI공부/AI Agent

0. 강화학습

슬픈 수달이 2026. 3. 24. 14:46

지도학습과 강화학습

지도학습(Supervised Learning)

라벨이 포함된 데이터로 모델을 학습시키는 방식

  • 입력X → 정답Y
  • 모델의 예측값과 실제 정답간의 오차 계산, 최소화 하도록 가중치 업데이트
  • 분류, 회귀, 이미지 분류, 스펨메일 판별, 주가예측등

강화학습(Reinforcement Learning)

정답을 직접 주지 않고, 행동에 대한 보상(Reward)을 통해 학습하는 방식(스스로 학습)

  • Agent(주체)가 Environment(환경)와 상호작용하며 action(행동)을 선택하고, 결과로 받은 Reward(보상)를 최대화 하도록 policy(정책)를 학습
  • 이 행동이 좋았나? > 보상으로 평가받으며 더 좋은 전략을 찾음
  • 게임 AI, 자율주행, 로봇제어 등이 대표적
    • 정답 대신 보상을 통해 최적 행동 전략을 학습.

순차적 의사 결정

Agent가 한 번의 선택이 아닌 시간의 흐름에 따라 여러 번 행동을 선택하고, 결과가 이후 상태와 보상에 영향을 미치는 구조.

  • 현재의 행동이 즉각적 보상만 결정하지 않고, 미래의 상태 전이, 장기적인 누적보상까지 영향을 줌.
    • Agent는 순간의 보상보다 장기적인 보상을 최대화 하도록 정책을 학습
  • 보통 상태(State), 행동(Action), 보상(Reward), 상태전이(Transition)으로 구성된 마르코프 결정 과정(MDP)로 모델링 됨.
  • 과거 전체가 아니라 현재 상태에 기반의사 결정을 한다는 마르코프 성질을 가정
    • 이전까지는 과거에 얽매임(RNN처럼 이전의 결과를 계속 불러옴)
    • 그러나 강화학습은 마치 바둑을 둘 때 중간부터 둔다고 생각하면, 과거에 둔 순서 기록이 의미가 없듯이 과거가 의미 없음.

Reward(보상)

에이전트가 특정 상태에서 어떤 행동을 했을 때 환경으로부터 받는 즉각적 피드백 신호

  • 행동의 좋고(양수) 나쁨(음수)을 수치로 표현
  • Agent는 리워드를 기반으로 정책을 업데이트하고, 할인율(γ)을 고려한 누적보상을 최대화 하도록 학습
  • 리워드는 매 타임스텝마다 주어지거나, 에피소드 종료 시 한번만 주어질 수도 있음.

보상의 종류

1. 즉각적 피드백(Immediate Signal)

특정 상태에서 행동을 했을 때 즉시 주어지는 수치형 피드백

  • 한 행동이 얼마나 바람직했는지 나타냄
  • 그러나 목표는 이 즉각적 피드백 보상이 아닌 장기 누적 보상을 최대화하는게 중요함.

2. 희소성(Sparse Reward)

매 순간 주어지지 않을 수도 있지만, 특정 목표를 달성했을 때만 보상이 주어진다.

  • 미로 문제에서 출구에 도착했을 때만 +1을 받는 경우가 이에 해당한다.

3. 지연성(Delayed Reward)

어떤 행동의 결과에 대한 보상이 즉시 나타나지 않고, 여러 단계를 거친 뒤 나중에 주어진다.

  • ex) 체스에서 한수를 둔 후 보상이 주어지지 않고, 게임이 끝나야 승패로 보상이 주어진다.
  • 어떤 행동이 최종 결과에 기여했는지 파악하기 어려워짐(신용 할당 문제/Credit Assignment Problem)

Agent(에이전트)

에이전트 > 행동 > 환경이 변함 > 변한 환경에 따라 리워드를 받거나 상태가 변함 > 반복

환경과 상호작용하며 상태를 관찰하고, 그에 따라 행동을 선택하고, 결과로 Reward를 받아 학습하는 주체

  • 단기적인 보상이 아닌 미래 보상을 포함한 누적 보상을 최대화 하는 정책을 학습한다.
  • 경험을 통해 가치 함수(Value Function)나 정책을 점진적으로 업데이트하며, 탐험과 활용을 균형있게 수행

에이전트 종류

1. 가치 기반 에이전트(Value-Based Agent)

가치함수(Value Function)를 학습하여 행동을 선택하는 방식

  • 각 상태, 상태-행동 쌍의 가치를 계산 후 가치가 가장 높은 행동을 선택
  • Q-Learning, DQN등이 있음.
  • 정책을 직접 학습하지 않고, 가치함수로 간접적으로 최적 정책을 도출함

2. 정책 기반 에이전트(Policy-Based Agent)

행동 선택 규칙인 정책(Policy)를 직접 학습하는 방식.

  • 확률적으로 행동을 출력하는 정책을 최적화
  • REINFORCE, Policy Gradient 방법이 존재
  • 연속적 행동 공간에 적합.

3. 액터-크리틱 에이전트(Actor-Critic Agent)

가치기반, 정책기반을 결합

  • Actor는 정책 학습하여 행동 선택
  • Critic은 가치 함수를 학습하여 Actor의 행동을 평가
  • A2C, A3C, PPO, SAC등이 있다.
  • 학습 안정성과 효율성이 높아 실무에서 많이 사용된다.

4. 모델 기반 에이전트(Model-Based Agent)

환경의 동작 원리(상태 전이 확률, 보상함수)를 학습하거나 알고 있다고 가정, 이를 기반으로 미래를 예측하고, 계획(Planning)을 수행하는 방식

  • MCTS(Monte Carlo Tree Search)나 Dyna-Q등이 있다.
  • 샘플 효율성이 높은 장점

5. 모델 프리 에이전트(Model-Free Agent)

환경의 내부 구조를 모른 채 경험을 통해 직접 정책, 가치 함수를 학습하는 방식

  • 다 경험해가며 학습하는 과정
  • DQN, PPO등이 여기 해당
  • 구현이 단순하지만, 많은 데이터가 필요 → 어떤 데이터가 필요해?

Exploration(탐험, 미래를 위한 모험)

에이전트가 현재까지 학습한 최적 행동만 반복하는 것이 아니라, 더 나은 보상을 얻을 가능성이 있는 새로운 행동을 시도해보는 과정

  • 장기적 누적 보상을 최대화 하기 위한 필수 전략
  • 탐험이 부족하면 지역적인 최적에만 머물고, 지나치면 학습이 불안정해진다.
  • 반대로는 이미 잘 알려진 행동을 선택하는 Exploitation(활용)이 있다.
  • ε-greedy 전략에서는 일정 확률(ε)로 무작위 행동을 선택하여 새로운 가능성을 탐색한다.

Exploitation(활용, 지금까지의 경험)

에이전트가 지금까지의 학습 결과를 바탕으로 현재 가장 높은 보상을 줄 것으로 예상되는 행동을 선택하는 과정을 의미.

  • 경험을 통해 가치가 높다 판단된 행동을 반복해 안정적으로 보상을 얻는 전략
  • 단기적으론 높은 성과
  • 장기적으론 지역 최적해에 머무를 위험이 있음.

Exploration과 Exploitation은 균형을 이뤄야한다.