| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- Python
- 랭그래프
- 캐글
- 에이전트
- 알고리즘
- 소프트웨어 개발
- 머신러닝
- CNN
- 딥러닝
- TTS
- CLIP
- dementional reduction
- 정보처리기사
- python 기초
- RNN
- 기초
- 데이터엔지니어
- Transformer
- 생성형 인공지능
- 자연어처리
- 데이터 시각화
- LangGraph
- SQL
- ASR
- 트랜스포머
- python기초
- 힙정렬
- RDBMS
- 객체지향
- UMAP
- Today
- Total
수달이네 기술 블로그
https://mariblossom.tistory.com/175내가 작성한 Reflexion논문 리뷰 확인구현 초기Actor(LM): 실제 행동(답안 작성, 코드 생성 등)을 출력하는 언어 모델Evaluator(LM): Actor가 낸 결과를 평가해 점수 출력(정확성, 형식, 샘플 테스트 통과 여부)Self-reflection(LM): 평가 결과를 바탕으로 언어적 피드백(Reflective text)구성Trajectory(shrot-term memory): 이번 시도에서의 행동/관찰 기록을 담는 단기 메모리(슬라이딩 윈도우)Experience(long-term memory): 누적된 반성문을 쌓아두는 장기 메모리(중요한 기억 저장)Environment: 외부에서 관찰/보상을 제공한다. 만약 외부 피드백이..
Reflexion: Language Agents with Verbal Reinforcement LearningLLM 기반의 에이전트가 실수하며 배우고, 성능을 스스로 개선할 수 있도록 하는 자기성찰(Self-Reflection) 메커니즘을 제안.에이전트가 자신의 결과물을 평가하고, 잘못된 점을 언어적 피드백(Verbal Feedback)하게 한 후, 이를 반영하는 방식.7. 랭그래프 Reflection기초배경 및 결과 요약LLM이 게임, 컴파일러, API등 외부 환경과 상호작용하는 에이전트로 활발히 사용되는 중임.이전 강화학습 방식은 방대한 훈련 데이터가 필요하며, 모델의 가중치(Weights)를 Fine-tuning하는 방식이라 비용이 많이 든다.강화학습? → 학습의 구조(Loop)가 강화학습과 같은 ..
Tool Calling Agent자신이 가진 지식 외에 외부 도구(API, 데이터베이스, 코드 실행기 등)을 호출해 문제를 해결하는 에이전트LLM이 사용자의 질문을 받는다.해당 질문을 분석해 search_tool이 필요하다 판단하면 해당 도구를 호출하라는 메세지를 출력한다.라우팅 함수를 통해 도구실행 노드로 이동하거나, 최종 답변 가능시 답변함.도구를 실행할 경우 결과값을 다시 LLM에 전달한다.LLM이 결과를 보고 최종응답을 생성한다.기존엔 LangChain이 위의 모든 과정을 블랙박스 상태로 스스로 해냈다. 그러나.개발자가 직접 강제로 노드를 연결하지 못함.도구를 무한히 호출하는 오류로 토큰 낭비가 생김.등 위의 문제를 해결하기 위해 LangGraph를 사용해 구현하는게 더 좋다.https://doc..