인포그랩은 엔터프라이즈 AI 에이전트 플랫폼 ‘NEXA’를 개발하고 있습니다. NEXA는 AI·데이터, 소프트웨어 개발, DevOps·인프라, 제품·기획, 생산성 등 다양한 분야에 업무 특화 에이전트를 제공합니다. 사용자는 Claude, GPT, Gemini 중 원하는 모델을 선택하고, 시스템 프롬프트를 설계해 맞춤형 에이전트도 만들 수 있습니다.
소프트웨어 개발자로서 저는 NEXA의 서비스 품질과 에이전트 응답 품질을 책임지고 있습니다. 그런데 적절한 에이전트 성능 평가 방법과 사례가 드물어 고민이었습니다.
LLM은 ‘Humanity's Last Exam’ 등 다양한 벤치마크와 데이터셋으로 평가할 수 있습니다. 그러나 전통적인 LLM 성능 평가 방식으로는 에이전트 성능을 제대로 측정하기 어렵습니다.
에이전트는 프롬프트, RAG, MCP, 도구 호출, 다단계 추론 등을 결합해 자율적으로 동작합니다. 에이전트 성능을 정확히 측정하려면 이러한 특성을 고려한 전용 평가 방법이 필요합니다.
저는 에이전트에 특화된 성능 평가 방법을 다각도로 탐색했습니다. 이 과정에서 평가 시 고려 사항, LLM-as-a-Judge 평가 방식, 도구 호출·사용 능력 평가 방법 등을 조사하며 실무 인사이트를 얻었습니다. 이 글에서는 그 내용을 정리하고, NEXA에 LLM-as-a-Judge를 적용해 에이전트 성능을 평가한 방법과 결과를 자세히 공유하겠습니다.