수달이네 기술 블로그

1. AI Agent 본문

AI공부/AI Agent

1. AI Agent

슬픈 수달이 2026. 3. 25. 15:34

AI Agent

환경으로부터 정보를 지각(Perception)하고 ,주어진 목표 달성을 위해 의사결정(Decision Making)을 거쳐 적절한 행동을 수행하는 지능형 주체

  • 데이터와 경험을 바탕으로 학습하고 상황에 맞게 적응할 수 있다.
  • 텍스트, 이미지 음성을 활용하는 멀티모달 모델, 외부 지식을 검색해 활용하는 RAG, 다양한 도구와 시스템을 연결해 실행 능력을 확장하는 MCP 기술을 결합
  • 환경과 상호작용하며 목표를 수행
    • 위의 관점에서 보면 강화학습의 에이전트와 공통된다.
    • 그러나 RL은 신경망으로, 에이전트는 LLM기반으로 작동한다.

Agent의 유형 (아래로 내려갈수록 복잡함)

  1. 단순 반응형 에이전트(Simple Reflex Agent)
    • 현재 인식을 기반, 과거 인식 기록 무시함.(조건 → 행동)
  2. 모델 기반 반응 에이전트(Model-based Reflex Agent)
    • 현재 상태를 기억, 변화를 파악
  3. 목표 기반 에이전트(Goal-based Agent)
    • 목표를 달성하기 위해 계획을 세우고 행동
  4. 유용성 기반 에이전트(Utility-based Agent)
    • 여러 계획 중 가장 효율적이고, 좋은 방법을 선택
  5. 학습 에이전트(Learning Agent)
    • 경험을 통해 스스로 성능을 개선

RAG(Retrieval-Augmented Generation) → 전략

생성형 AI가 외부 지식을 검색해 활용하는 방식(인터넷, 로컬 데이터 등)

  • 모델 파라미터에 저장된 정보만으로 답변하지 않고, 관련 문서를 **검색(Retrieval)**한 후 이를 입력 맥락에 포함시켜 답변을 생성함.
    • 모델이 **최신 정보(인터넷 검색)**나 도메인 특화 지식(인터넷 혹은 관련 데이터셋 학습)을 활용할 수 있게 해줌.
    • 환각(hallucination)을 줄이고 신뢰도를 높임.
  • 고객지원, 법률 문서 검색, 논문 요약등에서는 내부 데이터베이스에서 정보를 불러옴

MCP(Model Context Protocol) → 규격

AI에이전트가 외부 도구, 서비스, 데이터베이스와 표준화된 방식으로 연결되도록 설계된 프로토콜(지능형 톨게이트 같은 느낌)

  • MCP는 공통된 인터페이스를 제공해 에이전트가 다양한 리소스를 쉽게 호출하고 응답을 이해할 수 있게 한다. (동일한 방식으로 데이터를 주고받을 수 있음)
  • 이를 통해 RAG나 LangGraph같은 프레임워크와 결합할 때, 문서 검색 DB 질의 외부 어플리케이션 실행 등을 일관된 구조로 처리 가능하다.
  • 추가적으로 허용된 데이터인지, 안전한 요청인지 확인하는 제어 역할도 가능함.
  • 복잡한 연동코드 없이 확장성, 재사용성 확보 가능

만약 MCP가 없다면?

  • 파편화: 기존의 서비스(GPT, Tavily 등)은 출력형식(JSON, XML, CSV등), 인증방식(API Key, OAuth2 등), 함수 구조(ex. 검색 → q = 질문 or query:{text:”질문”} 등)처럼 모두 제각각이므로 매번 새로운 연결 코드를 짜야한다.
  • 데이터 고립: 모델이 컴퓨터의 데이터를 이해하지 못해 답변에 한계가 생김
  • 복잡성: 에이전트가 도구를 갈아탈 때 마다 인증, 데이터 형식을 새로 맞춰야함.

AI Agent의 대표적 사례

로봇청소기 (iRobot Roomba 등)

  • 기존(반응형): 단순히 벽에 부딪히면, 반대로 이동 이라는 규칙에 따름
  • 현재(환경 적응형 에이전트): 객체를 인식하고 판단 + 동적으로 위치를 갱신, 파악하고, 환경과 상호작용하며 최적의 전략을 세우는 에이전트로 변화

자율주행 자동차 (Tesla Autopilot, Waymo 등)

  • 카메라·라이다 등 센서 데이터로 환경 인식 → 교통 상황에 맞는 주행 판단 → 가속, 감속, 조향 실행.
  • 복잡한 멀티모달 지각과 강화학습 기반 의사결정의 집약체.

스마트 스피커 (Amazon Alexa, Google Assistant, Naver Clova)

  • 음성 입력을 통해 사용자의 요청을 인식(지각) → 의도를 분석(의사결정) → 음악 재생, 날씨 안내, IoT 제어 등 실행(행동).
  • 질의 응답 뿐 아닌 외부 API와 연동되는 MCP기반 에이전트

금융 트레이딩 에이전트 (로보어드바이저)

  • 시장 데이터를 실시간 분석(지각) → 투자 전략 수립(의사결정) → 매수·매도 주문 실행(행동).

게임 AI (AlphaGo, OpenAI Five, StarCraft II AlphaStar)

  • AlphaGo: 바둑판 상태 인식 → 수 선택 의사결정 → 착수 행동.
  • OpenAI Five: 도타2 같은 팀 기반 게임에서 인간과 협력/경쟁하며 전략 실행.
  • 사람을 뛰어넘는 성능으로 AI Agent의 강력함을 보여준 사례.

AI Agent 대표 프레임워크

프레임워크: 환경이 만들어진 것을 기반으로 필요한걸 채워넣음.

프레임워크 특징 쓰임새
LangChain • 가장 널리 쓰이는 LLM Agent 프레임워크
• 프롬프트 체인, 외부 DB,API연결 용이
• RAG구현 지원
챗봇, 검색+답변, 문서분석
LlamaIndex • 데이터/문서 인덱싱에 특화
• LangChain과 함께 사용
• 다양한 스토리지 연동
기업 내부 문서 검색, 지식관리
Haystack • 오픈소스 RAG프레임워크
• Elasticsearch/FAISS등 벡터 DB연동
• 파이프 라인 구조
대규모 문서 QA시스템, 엔터프라이즈 검색
AutoGPT • 목표만 주면 스스로 계획→실행
• 오토노머스 Agent개념 대중화
• 플러그인 확장성
리서치 자동화, 반복 업무
CrewAI • 멀티에이전트 협업 프레임워크
• 여러 Agent가 역할을 나누어 협력/경쟁
• 시뮬레이션 실험에 강
팀 기반 문서 요약/작성, 협동형 AI연구
Microsoft semantic Kernel • LLM+기존 앱/서비스 통합에 최적화
• 플러그인 방식으로 확장
• .NET/파이썬
기업 워크플로우 자동화, MS서비스 연동
OpenAI Assistants API • ChatGPT커스텀 Agent제작 기능
• 코드 실행, 파일 검색, 외부 API호출 지원
맞춤형 챗봇, 고객지원 Agent, 개인 비서

워크플로우

어떤 작업을 달성하기 위해 사람이든 시스템이든 따라야 하는 단계적 절차나 흐름을 뜻한다.

  • 일련의 단계를 체계적으로 정의하고 자동화해 연결한 것.(실행 계획)
  • 무엇을, 어떤 순서로, 어떤 도구로 실행할지 시각적으로 표현한 설계도 + 실행 계획

n8n

오픈소스 워크플로우 자동화 도구, 노드를 이어붙여 다양한 서비스, AI모델을 연결

  • Zapier등의 상용툴과 유사하나, 자체 서버로 보안, 커스터마이징에 자유로움.
  • 협업도구, 데이터베이스, AI API와 쉽게 연동 가능
  • 데이터 수집 → 전처리 → AI호출 → 결과 전달 등의 파이프라인을 자동화 하는데 활용
  • AI워크플로우와 비즈니스 자동화를 빠르게 시각적으로 구성할 수 잇는 레고 블록 같은 플랫폼

RAG(Retrieval-Augmented Generation) 워크플로우

LLM이 답변을 만들 때 외부 데이터베이스, 문서에서 관련 정보를 검색해 이를 포함시킨 답변을 생성하는 방식

  • 모델이 학습 시점 이후의 최신 지식, 내부에 없는 도메인 정보를 활용가능
  • hallucination감소, 신뢰도 향상
  • 질문 입력 → 쿼리를 벡터로 변환 → 벡터 DB에서 관련 문서 검색 → 컨텍스트로 합쳐 생성
    • 빠르고 단순해 FAQ, 사내문서 QA등의 명확한 작업에 적합

Agentic RAG 워크플로우

기존의 RAG 흐름 위에 에이전트의 자율성을 추가

  • 질문을 분석하고 필요할때만 검색 or 쿼리를 재작성해 여러번 검색
  • 이를 통해 평가, 반성하여 재시도하는 다단계 반복형 파이프라인
    • LLM이 언제 검색할지, 어떤 도구를 쓸지, 어떻게 답변을 다듬을지 스스로 결정
    • 복잡한 리서치, 멀티홉 질의, 장기 과제에 강력

멀티홉 질의?

단일 질문에 답하기 위해 여러 개의 정보 조각을 순차적으로 연결해 추론해아하는 질문.

  • ex) 현재 내가 있는 곳의 날씨는?(쿼리) → 위치 파악 → 날씨정보 확인등