인포그랩은 엔터프라이즈 AI 에이전트 플랫폼 ‘NEXA’를 개발하고 있습니다. NEXA는 AI·데이터, 소프트웨어 개발, DevOps·인프라, 제품·기획, 생산성 등 다양한 분야에 업무 특화 에이전트를 제공합니다. 사용자는 Claude, GPT, Gemini 중 원하는 모델을 선택하고, 시스템 프롬프트를 설계해 맞춤형 에이전트도 만들 수 있습니다.
소프트웨어 개발자로서 저는 NEXA의 서비스 품질과 에이전트 응답 품질을 책임지고 있습니다. 그런데 적절한 에이전트 성능 평가 방법과 사례가 드물어 고민이었습니다.
LLM은 ‘Humanity's Last Exam’ 등 다양한 벤치마크와 데이터셋으로 평가할 수 있습니다. 그러나 전통적인 LLM 성능 평가 방식으로는 에이전트 성능을 제대로 측정하기 어렵습니다.
에이전트는 프롬프트, RAG, MCP, 도구 호출, 다단계 추론 등을 결합해 자율적으로 동작합니다. 에이전트 성능을 정확히 측정하려면 이러한 특성을 고려한 전용 평가 방법이 필요합니다.
저는 에이전트에 특화된 성능 평가 방법을 다각도로 탐색했습니다. 이 과정에서 평가 시 고려 사항, LLM-as-a-Judge 평가 방식, 도구 호출·사용 능력 평가 방법 등을 조사하며 실무 인사이트를 얻었습니다. 이 글에서는 그 내용을 정리하고, NEXA에 LLM-as-a-Judge를 적용해 에이전트 성능을 평가한 방법과 결과를 자세히 공유하겠습니다.
에이전트 유형과 특징
먼저 일반적인 에이전트의 유형과 특징을 살펴보려 합니다. 에이전트는 발전 단계에 따라 생성형 에이전트, 도구 사용 에이전트, 계획 수립 에이전트로 나뉩니다.
생성형 에이전트 (Generator Agent 단계)

오늘날 운영 중인 대부분의 LLM 애플리케이션이 생성형 에이전트에 해당합니다. 고객 지원 챗봇이나 RAG 기반 애플리케이션이 대표적인 예입니다. 이러한 에이전트는 사용자 쿼리에 반응해 응답하는 방식으로 동작합니다.
도구 사용 에이전트 (Tool-Calling Agent 단계)

도구 사용 에이전트는 현재 AI 개발의 주류를 이루는 단계입니다. 이 유형의 에이전트는 API, 데이터베이스, 검색 엔진에서 정보를 검색하거나, 외부 도구를 활용해 항공편 예약, 웹 브라우징, 계산 등 작업을 수행할 수 있습니다.