수달이네 기술 블로그

강화학습 기본 개념 본문

AI공부/머신러닝

강화학습 기본 개념

슬픈 수달이 2025. 12. 1. 00:23

학습의 종류와 강화학습

강화학습 이전의 학습은 옆 두개

  • 지도학습과 비지도 학습으로 나뉘었다.
  • 지도학습: 답을 주고 학습
  • 비지도 학습: 답을 주지 않고 자료들로 학습함.

강화학습(알파고 등이 강화학습 기반)

  • 제어공학에서 나온 개념
  • 학습을 하면서 정답에 가까우면 상을 주고, 멀어지면 벌을 주는 식으로 학습을 함

강화학습의 환경

환경: 이게 사과이다, 게임이다 등등

Agent가 어떤 policy(정책)을 가지고 환경에 액션을 취했을 때 나오는 상태, 보상을 계속 반복하는 것.

STAR

statespace: 환경

action space: 어떤 action을 취했다.

tracsition: 환경과 액션에 tracsition function을 했더니 이렇게 변했다.(markov decision process)

reward: 해당 결과에 reward를 +로 줄거냐 -로 줄거냐를 선택하는 문제

위 4개로 구성된 튜플로 강화학습이 이뤄진다.

보상함수(Reward function)

리워드를 마지막에만 주면 중간의 과정은 학습하지 못하므로, 과정에도 보상이 포함된다.

  • 해당 과정중 모든 리워드들이 최고가 되도록 하는 것이 강화학습의 목적이다.

목적함수(최종 목표)

J를 최대로 할 수 있는 것이 강화학습의 목표이다.

Value와 Q함수

Value: A→B까지 가는데 J를 이용하여 transfer를 할때 output을 어떻게 주는가?

  • Environment의 state가 좋아질수 있도록 하는 output의 value = V

Q: 그 value를 테이블로 만들어서 결과를 다 외워서 최적의 결과를 만드는 것.

정책

내가 만든 reward function에서 Q와 Value를 구성했을 때 그 정책을 계속 유지할 것인가? 아니면 수정할 것인가

π = policy function

강화학습 예시

Atari 게임>Deep Q Networks(DQN)

https://www.youtube.com/watch?time_continue=3&v=V1eYniJ0Rnk&embeds_referring_euri=https%3A%2F%2Fnamu.wiki%2F&source_ve_path=Mjg2NjY