| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- UMAP
- 생성형 인공지능
- RDBMS
- python 기초
- 딥러닝
- 데이터 시각화
- 에이전트
- ASR
- 기초
- Transformer
- 힙정렬
- RNN
- CNN
- LangGraph
- 트랜스포머
- CLIP
- Python
- 데이터엔지니어
- 알고리즘
- 자연어처리
- 객체지향
- SQL
- TTS
- python기초
- 정보처리기사
- 랭그래프
- dementional reduction
- 소프트웨어 개발
- 캐글
- 머신러닝
- Today
- Total
수달이네 기술 블로그
0. 강화학습 본문
지도학습과 강화학습
지도학습(Supervised Learning)
라벨이 포함된 데이터로 모델을 학습시키는 방식
- 입력X → 정답Y
- 모델의 예측값과 실제 정답간의 오차 계산, 최소화 하도록 가중치 업데이트
- 분류, 회귀, 이미지 분류, 스펨메일 판별, 주가예측등
강화학습(Reinforcement Learning)
정답을 직접 주지 않고, 행동에 대한 보상(Reward)을 통해 학습하는 방식(스스로 학습)
- Agent(주체)가 Environment(환경)와 상호작용하며 action(행동)을 선택하고, 결과로 받은 Reward(보상)를 최대화 하도록 policy(정책)를 학습
- 이 행동이 좋았나? > 보상으로 평가받으며 더 좋은 전략을 찾음
- 게임 AI, 자율주행, 로봇제어 등이 대표적
- 정답 대신 보상을 통해 최적 행동 전략을 학습.
순차적 의사 결정
Agent가 한 번의 선택이 아닌 시간의 흐름에 따라 여러 번 행동을 선택하고, 결과가 이후 상태와 보상에 영향을 미치는 구조.
- 현재의 행동이 즉각적 보상만 결정하지 않고, 미래의 상태 전이, 장기적인 누적보상까지 영향을 줌.
- Agent는 순간의 보상보다 장기적인 보상을 최대화 하도록 정책을 학습
- 보통 상태(State), 행동(Action), 보상(Reward), 상태전이(Transition)으로 구성된 마르코프 결정 과정(MDP)로 모델링 됨.
- 과거 전체가 아니라 현재 상태에 기반해 의사 결정을 한다는 마르코프 성질을 가정
- 이전까지는 과거에 얽매임(RNN처럼 이전의 결과를 계속 불러옴)
- 그러나 강화학습은 마치 바둑을 둘 때 중간부터 둔다고 생각하면, 과거에 둔 순서 기록이 의미가 없듯이 과거가 의미 없음.
Reward(보상)
에이전트가 특정 상태에서 어떤 행동을 했을 때 환경으로부터 받는 즉각적 피드백 신호
- 행동의 좋고(양수) 나쁨(음수)을 수치로 표현
- Agent는 리워드를 기반으로 정책을 업데이트하고, 할인율(γ)을 고려한 누적보상을 최대화 하도록 학습
- 리워드는 매 타임스텝마다 주어지거나, 에피소드 종료 시 한번만 주어질 수도 있음.
보상의 종류
1. 즉각적 피드백(Immediate Signal)
특정 상태에서 행동을 했을 때 즉시 주어지는 수치형 피드백
- 한 행동이 얼마나 바람직했는지 나타냄
- 그러나 목표는 이 즉각적 피드백 보상이 아닌 장기 누적 보상을 최대화하는게 중요함.
2. 희소성(Sparse Reward)
매 순간 주어지지 않을 수도 있지만, 특정 목표를 달성했을 때만 보상이 주어진다.
- 미로 문제에서 출구에 도착했을 때만 +1을 받는 경우가 이에 해당한다.
3. 지연성(Delayed Reward)
어떤 행동의 결과에 대한 보상이 즉시 나타나지 않고, 여러 단계를 거친 뒤 나중에 주어진다.
- ex) 체스에서 한수를 둔 후 보상이 주어지지 않고, 게임이 끝나야 승패로 보상이 주어진다.
- 어떤 행동이 최종 결과에 기여했는지 파악하기 어려워짐(신용 할당 문제/Credit Assignment Problem)
Agent(에이전트)

환경과 상호작용하며 상태를 관찰하고, 그에 따라 행동을 선택하고, 결과로 Reward를 받아 학습하는 주체
- 단기적인 보상이 아닌 미래 보상을 포함한 누적 보상을 최대화 하는 정책을 학습한다.
- 경험을 통해 가치 함수(Value Function)나 정책을 점진적으로 업데이트하며, 탐험과 활용을 균형있게 수행
에이전트 종류
1. 가치 기반 에이전트(Value-Based Agent)
가치함수(Value Function)를 학습하여 행동을 선택하는 방식
- 각 상태, 상태-행동 쌍의 가치를 계산 후 가치가 가장 높은 행동을 선택
- Q-Learning, DQN등이 있음.
- 정책을 직접 학습하지 않고, 가치함수로 간접적으로 최적 정책을 도출함
2. 정책 기반 에이전트(Policy-Based Agent)
행동 선택 규칙인 정책(Policy)를 직접 학습하는 방식.
- 확률적으로 행동을 출력하는 정책을 최적화
- REINFORCE, Policy Gradient 방법이 존재
- 연속적 행동 공간에 적합.
3. 액터-크리틱 에이전트(Actor-Critic Agent)
가치기반, 정책기반을 결합
- Actor는 정책 학습하여 행동 선택
- Critic은 가치 함수를 학습하여 Actor의 행동을 평가
- A2C, A3C, PPO, SAC등이 있다.
- 학습 안정성과 효율성이 높아 실무에서 많이 사용된다.
4. 모델 기반 에이전트(Model-Based Agent)
환경의 동작 원리(상태 전이 확률, 보상함수)를 학습하거나 알고 있다고 가정, 이를 기반으로 미래를 예측하고, 계획(Planning)을 수행하는 방식
- MCTS(Monte Carlo Tree Search)나 Dyna-Q등이 있다.
- 샘플 효율성이 높은 장점
5. 모델 프리 에이전트(Model-Free Agent)
환경의 내부 구조를 모른 채 경험을 통해 직접 정책, 가치 함수를 학습하는 방식
- 다 경험해가며 학습하는 과정
- DQN, PPO등이 여기 해당
- 구현이 단순하지만, 많은 데이터가 필요 → 어떤 데이터가 필요해?
Exploration(탐험, 미래를 위한 모험)
에이전트가 현재까지 학습한 최적 행동만 반복하는 것이 아니라, 더 나은 보상을 얻을 가능성이 있는 새로운 행동을 시도해보는 과정
- 장기적 누적 보상을 최대화 하기 위한 필수 전략
- 탐험이 부족하면 지역적인 최적에만 머물고, 지나치면 학습이 불안정해진다.
- 반대로는 이미 잘 알려진 행동을 선택하는 Exploitation(활용)이 있다.
- ε-greedy 전략에서는 일정 확률(ε)로 무작위 행동을 선택하여 새로운 가능성을 탐색한다.
Exploitation(활용, 지금까지의 경험)
에이전트가 지금까지의 학습 결과를 바탕으로 현재 가장 높은 보상을 줄 것으로 예상되는 행동을 선택하는 과정을 의미.
- 경험을 통해 가치가 높다 판단된 행동을 반복해 안정적으로 보상을 얻는 전략
- 단기적으론 높은 성과
- 장기적으론 지역 최적해에 머무를 위험이 있음.
Exploration과 Exploitation은 균형을 이뤄야한다.
'AI공부 > AI Agent' 카테고리의 다른 글
| 5. 랭그래프에서 LLM으로 ToolCall하기 (0) | 2026.04.03 |
|---|---|
| 4. 랭그래프의 그래프 표현(상태 변화) (0) | 2026.03.31 |
| 3. 랭그래프의 구성요소, 기능 구현 (0) | 2026.03.27 |
| 2. LangGraph, LangChain의 구분 (0) | 2026.03.26 |
| 1. AI Agent (0) | 2026.03.25 |