| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- 정보처리기사
- 데이터엔지니어
- 힙정렬
- Python
- ASR
- Transformer
- 머신러닝
- dementional reduction
- RNN
- 생성형 인공지능
- 객체지향
- 자연어처리
- LangGraph
- 트랜스포머
- 알고리즘
- CLIP
- TTS
- 딥러닝
- 랭그래프
- 소프트웨어 개발
- 캐글
- SQL
- python기초
- RDBMS
- UMAP
- CNN
- 기초
- 데이터 시각화
- 에이전트
- python 기초
Archives
- Today
- Total
수달이네 기술 블로그
강화학습 기본 개념 본문
학습의 종류와 강화학습

강화학습 이전의 학습은 옆 두개
- 지도학습과 비지도 학습으로 나뉘었다.
- 지도학습: 답을 주고 학습
- 비지도 학습: 답을 주지 않고 자료들로 학습함.
강화학습(알파고 등이 강화학습 기반)
- 제어공학에서 나온 개념
- 학습을 하면서 정답에 가까우면 상을 주고, 멀어지면 벌을 주는 식으로 학습을 함
강화학습의 환경

환경: 이게 사과이다, 게임이다 등등
Agent가 어떤 policy(정책)을 가지고 환경에 액션을 취했을 때 나오는 상태, 보상을 계속 반복하는 것.
STAR

statespace: 환경
action space: 어떤 action을 취했다.
tracsition: 환경과 액션에 tracsition function을 했더니 이렇게 변했다.(markov decision process)
reward: 해당 결과에 reward를 +로 줄거냐 -로 줄거냐를 선택하는 문제
위 4개로 구성된 튜플로 강화학습이 이뤄진다.
보상함수(Reward function)

리워드를 마지막에만 주면 중간의 과정은 학습하지 못하므로, 과정에도 보상이 포함된다.
- 해당 과정중 모든 리워드들이 최고가 되도록 하는 것이 강화학습의 목적이다.
목적함수(최종 목표)


J를 최대로 할 수 있는 것이 강화학습의 목표이다.
Value와 Q함수

Value: A→B까지 가는데 J를 이용하여 transfer를 할때 output을 어떻게 주는가?
- Environment의 state가 좋아질수 있도록 하는 output의 value = V
Q: 그 value를 테이블로 만들어서 결과를 다 외워서 최적의 결과를 만드는 것.
정책


내가 만든 reward function에서 Q와 Value를 구성했을 때 그 정책을 계속 유지할 것인가? 아니면 수정할 것인가
π = policy function
강화학습 예시
Atari 게임>Deep Q Networks(DQN)
'AI공부 > 머신러닝' 카테고리의 다른 글
| 7.셀레니움을 이용한 크롤링3: 데이터프레임화(야놀자 리뷰 크롤링) (1) | 2025.12.01 |
|---|---|
| 6. 셀레니움을 이용한 크롤링 2: 이미지 (0) | 2025.12.01 |
| 5. selenium을 이용한 크롤링 (1) | 2025.11.26 |
| 4. 공공 데이터셋 가져오기 (0) | 2025.11.26 |
| 참고) 머신러닝/딥러닝 모델별 장단점 표 (0) | 2025.11.25 |