Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

0. 강화학습 본문

AI공부/AI Agent

0. 강화학습

슬픈 수달이 2026. 3. 24. 14:46

지도학습과 강화학습

지도학습(Supervised Learning)

라벨이 포함된 데이터로 모델을 학습시키는 방식

입력X → 정답Y
모델의 예측값과 실제 정답간의 오차 계산, 최소화 하도록 가중치 업데이트
분류, 회귀, 이미지 분류, 스펨메일 판별, 주가예측등

강화학습(Reinforcement Learning)

정답을 직접 주지 않고, 행동에 대한 보상(Reward)을 통해 학습하는 방식(스스로 학습)

Agent(주체)가 Environment(환경)와 상호작용하며 action(행동)을 선택하고, 결과로 받은 Reward(보상)를 최대화 하도록 policy(정책)를 학습
이 행동이 좋았나? > 보상으로 평가받으며 더 좋은 전략을 찾음
게임 AI, 자율주행, 로봇제어 등이 대표적
- 정답 대신 보상을 통해 최적 행동 전략을 학습.

순차적 의사 결정

Agent가 한 번의 선택이 아닌 시간의 흐름에 따라 여러 번 행동을 선택하고, 결과가 이후 상태와 보상에 영향을 미치는 구조.

현재의 행동이 즉각적 보상만 결정하지 않고, 미래의 상태 전이, 장기적인 누적보상까지 영향을 줌.
- Agent는 순간의 보상보다 장기적인 보상을 최대화 하도록 정책을 학습
보통 상태(State), 행동(Action), 보상(Reward), 상태전이(Transition)으로 구성된 마르코프 결정 과정(MDP)로 모델링 됨.
과거 전체가 아니라 현재 상태에 기반해 의사 결정을 한다는 마르코프 성질을 가정
- 이전까지는 과거에 얽매임(RNN처럼 이전의 결과를 계속 불러옴)
- 그러나 강화학습은 마치 바둑을 둘 때 중간부터 둔다고 생각하면, 과거에 둔 순서 기록이 의미가 없듯이 과거가 의미 없음.

Reward(보상)

에이전트가 특정 상태에서 어떤 행동을 했을 때 환경으로부터 받는 즉각적 피드백 신호

행동의 좋고(양수) 나쁨(음수)을 수치로 표현
Agent는 리워드를 기반으로 정책을 업데이트하고, 할인율(γ)을 고려한 누적보상을 최대화 하도록 학습
리워드는 매 타임스텝마다 주어지거나, 에피소드 종료 시 한번만 주어질 수도 있음.

보상의 종류

1. 즉각적 피드백(Immediate Signal)

특정 상태에서 행동을 했을 때 즉시 주어지는 수치형 피드백

한 행동이 얼마나 바람직했는지 나타냄
그러나 목표는 이 즉각적 피드백 보상이 아닌 장기 누적 보상을 최대화하는게 중요함.

2. 희소성(Sparse Reward)

매 순간 주어지지 않을 수도 있지만, 특정 목표를 달성했을 때만 보상이 주어진다.

미로 문제에서 출구에 도착했을 때만 +1을 받는 경우가 이에 해당한다.

3. 지연성(Delayed Reward)

어떤 행동의 결과에 대한 보상이 즉시 나타나지 않고, 여러 단계를 거친 뒤 나중에 주어진다.

ex) 체스에서 한수를 둔 후 보상이 주어지지 않고, 게임이 끝나야 승패로 보상이 주어진다.
어떤 행동이 최종 결과에 기여했는지 파악하기 어려워짐(신용 할당 문제/Credit Assignment Problem)

Agent(에이전트)

에이전트 > 행동 > 환경이 변함 > 변한 환경에 따라 리워드를 받거나 상태가 변함 > 반복

환경과 상호작용하며 상태를 관찰하고, 그에 따라 행동을 선택하고, 결과로 Reward를 받아 학습하는 주체

단기적인 보상이 아닌 미래 보상을 포함한 누적 보상을 최대화 하는 정책을 학습한다.
경험을 통해 가치 함수(Value Function)나 정책을 점진적으로 업데이트하며, 탐험과 활용을 균형있게 수행

에이전트 종류

1. 가치 기반 에이전트(Value-Based Agent)

가치함수(Value Function)를 학습하여 행동을 선택하는 방식

각 상태, 상태-행동 쌍의 가치를 계산 후 가치가 가장 높은 행동을 선택
Q-Learning, DQN등이 있음.
정책을 직접 학습하지 않고, 가치함수로 간접적으로 최적 정책을 도출함

2. 정책 기반 에이전트(Policy-Based Agent)

행동 선택 규칙인 정책(Policy)를 직접 학습하는 방식.

확률적으로 행동을 출력하는 정책을 최적화
REINFORCE, Policy Gradient 방법이 존재
연속적 행동 공간에 적합.

3. 액터-크리틱 에이전트(Actor-Critic Agent)

가치기반, 정책기반을 결합

Actor는 정책 학습하여 행동 선택
Critic은 가치 함수를 학습하여 Actor의 행동을 평가
A2C, A3C, PPO, SAC등이 있다.
학습 안정성과 효율성이 높아 실무에서 많이 사용된다.

4. 모델 기반 에이전트(Model-Based Agent)

환경의 동작 원리(상태 전이 확률, 보상함수)를 학습하거나 알고 있다고 가정, 이를 기반으로 미래를 예측하고, 계획(Planning)을 수행하는 방식

MCTS(Monte Carlo Tree Search)나 Dyna-Q등이 있다.
샘플 효율성이 높은 장점

5. 모델 프리 에이전트(Model-Free Agent)

환경의 내부 구조를 모른 채 경험을 통해 직접 정책, 가치 함수를 학습하는 방식

다 경험해가며 학습하는 과정
DQN, PPO등이 여기 해당
구현이 단순하지만, 많은 데이터가 필요 → 어떤 데이터가 필요해?

Exploration(탐험, 미래를 위한 모험)

에이전트가 현재까지 학습한 최적 행동만 반복하는 것이 아니라, 더 나은 보상을 얻을 가능성이 있는 새로운 행동을 시도해보는 과정

장기적 누적 보상을 최대화 하기 위한 필수 전략
탐험이 부족하면 지역적인 최적에만 머물고, 지나치면 학습이 불안정해진다.
반대로는 이미 잘 알려진 행동을 선택하는 Exploitation(활용)이 있다.
ε-greedy 전략에서는 일정 확률(ε)로 무작위 행동을 선택하여 새로운 가능성을 탐색한다.

Exploitation(활용, 지금까지의 경험)

에이전트가 지금까지의 학습 결과를 바탕으로 현재 가장 높은 보상을 줄 것으로 예상되는 행동을 선택하는 과정을 의미.

경험을 통해 가치가 높다 판단된 행동을 반복해 안정적으로 보상을 얻는 전략
단기적으론 높은 성과
장기적으론 지역 최적해에 머무를 위험이 있음.

Exploration과 Exploitation은 균형을 이뤄야한다.

'AI공부 > AI Agent' 카테고리의 다른 글

5. 랭그래프에서 LLM으로 ToolCall하기 (0)	2026.04.03
4. 랭그래프의 그래프 표현(상태 변화) (0)	2026.03.31
3. 랭그래프의 구성요소, 기능 구현 (0)	2026.03.27
2. LangGraph, LangChain의 구분 (0)	2026.03.26
1. AI Agent (0)	2026.03.25

'AI공부/AI Agent' Related Articles