Notice

Recent Posts

Recent Comments

Link

깃허브

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

수달이네 기술 블로그

강화학습 기본 개념 본문

AI공부/머신러닝

강화학습 기본 개념

슬픈 수달이 2025. 12. 1. 00:23

학습의 종류와 강화학습

강화학습 이전의 학습은 옆 두개

지도학습과 비지도 학습으로 나뉘었다.
지도학습: 답을 주고 학습
비지도 학습: 답을 주지 않고 자료들로 학습함.

강화학습(알파고 등이 강화학습 기반)

제어공학에서 나온 개념
학습을 하면서 정답에 가까우면 상을 주고, 멀어지면 벌을 주는 식으로 학습을 함

강화학습의 환경

환경: 이게 사과이다, 게임이다 등등

Agent가 어떤 policy(정책)을 가지고 환경에 액션을 취했을 때 나오는 상태, 보상을 계속 반복하는 것.

STAR

statespace: 환경

action space: 어떤 action을 취했다.

tracsition: 환경과 액션에 tracsition function을 했더니 이렇게 변했다.(markov decision process)

reward: 해당 결과에 reward를 +로 줄거냐 -로 줄거냐를 선택하는 문제

위 4개로 구성된 튜플로 강화학습이 이뤄진다.

보상함수(Reward function)

리워드를 마지막에만 주면 중간의 과정은 학습하지 못하므로, 과정에도 보상이 포함된다.

해당 과정중 모든 리워드들이 최고가 되도록 하는 것이 강화학습의 목적이다.

목적함수(최종 목표)

J를 최대로 할 수 있는 것이 강화학습의 목표이다.

Value와 Q함수

Value: A→B까지 가는데 J를 이용하여 transfer를 할때 output을 어떻게 주는가?

Environment의 state가 좋아질수 있도록 하는 output의 value = V

Q: 그 value를 테이블로 만들어서 결과를 다 외워서 최적의 결과를 만드는 것.

정책

내가 만든 reward function에서 Q와 Value를 구성했을 때 그 정책을 계속 유지할 것인가? 아니면 수정할 것인가

π = policy function

강화학습 예시

Atari 게임>Deep Q Networks(DQN)

https://www.youtube.com/watch?time_continue=3&v=V1eYniJ0Rnk&embeds_referring_euri=https%3A%2F%2Fnamu.wiki%2F&source_ve_path=Mjg2NjY

'AI공부 > 머신러닝' 카테고리의 다른 글

7.셀레니움을 이용한 크롤링3: 데이터프레임화(야놀자 리뷰 크롤링) (1)	2025.12.01
6. 셀레니움을 이용한 크롤링 2: 이미지 (0)	2025.12.01
5. selenium을 이용한 크롤링 (1)	2025.11.26
4. 공공 데이터셋 가져오기 (0)	2025.11.26
참고) 머신러닝/딥러닝 모델별 장단점 표 (0)	2025.11.25

'AI공부/머신러닝' Related Articles