ai에이전트NEXA엔터프라이즈 AI 에이전트 성능 평가 가이드AI 에이전트는 프롬프트, RAG, MCP, 도구 호출, 다단계 추론 등을 결합해 자율적으로 동작합니다. 따라서 성능을 정확히 측정하려면 이러한 특성을 고려한 전용 평가 방법이 필요합니다. 이 글은 에이전트 성능 평가 시 고려 사항, LLM-as-a-Judge 평가 방식, 도구 호출·사용 능력 평가 방법, NEXA 적용 사례와 결과를 다뤘습니다.Michael2025년 9월 10일