인공지능(AI) 기반 생산성 도구는 ‘반복적인 코딩과 지루한 작업을 자동화하고, 코드를 생성하여 생산성을 향상한다’고 약속합니다. 그러나 조직이 ‘생산성 도구의 AI 영향력’을 측정하는 방법은 아직 제대로 알려지지 않았습니다. 현재 GitLab은 이 문제를 해결할 솔루션을 개발하고 있습니다. ‘AI Impact’라는 ‘Value Stream Analytics’ 기반 대시보드로, 조직이 AI 기능 모음인 ‘GitLab Duo’가 생산성에 미치는 영향력을 이해하는 데 도움이 될 것입니다. AI Impact는 GitLab에서 학습한 AI 영향력 측정 방식의 정점으로, GitLab이 배운 내용을 여러분에게 공유하고자 합니다.
The Pragmatic Engineer 보고서에 따르면, 일반적으로 생산성을 측정하는 일은 간단하지 않고, 전 세계 최고 엔지니어링 팀은 모두 서로 다른 지표를 사용합니다. 모두가 최적화하는 생산성 지표가 다르다면, AI 생산성 도구의 영향력을 어떻게 측정해야 할까요? AI 어시스턴트의 생산성 영향력을 측정하기 어려운 이유와 이 일이 실패하는 이유를 알아봅시다.
결함이 있는 생산성 지표
‘하루에 기여하는 코드 줄 수’나 ‘AI 제안의 수락률’과 같은 단순한 생산성 지표로는 다운스트림 비용을 파악할 수 없습니다. Infoworld 기사에 따르면, GitClear는 "2020년 1월부터 2023년 12월까지 변경된 코드 1억5300만 줄을 분석한 결과, 2024년에는 코드 이탈(작성된 후 2주 이내에 revert 되거나 변경되는 줄의 비율)이 두 배가 될 걸로 예상한다"고 합니다. 따라서 단순히 코드 줄 수를 측정하면 기술 부채가 쌓이고 개발자의 기술이 위축될 위험이 있습니다.
간접적 영향력 정량화의 어려움
AI 개발자 도구의 목표는 개발자가 수고를 덜고 ‘시스템 아 키텍처, 설계와 같이 더 가치 있는 작업에 집중하는 것’입니다. 그러나 이렇게 하면 AI가 생성한 코드를 검토, 테스트, 유지 관리하는 데 걸리는 시간과 비교해 얼마나 많은 시간이 절약될까요? 이러한 2차 생산성 향상 효과는 정확히 AI 결과로 보기 어렵기에 가치를 잘못 인식할 수도 있습니다. 해결책은 ‘AI 생산성 도구의 사용 주체를 신중하게 선택하는 것’입니다.
비즈니스 성과 집중의 중요성
궁극적으로 중요한 건 개발자 활동 지표가 아니라 실제 ‘비즈니스 성과’입니다. 리드 타임, 사이클 타임, 프로덕션 결함, 사용자 만족도를 추적하면 ‘병목 현상 위치’를 더 잘 파악할 수 있습니다. AI 도구가 코드를 더 빨리 생성하는데 품질 팀이 변경 사항을 따라잡지 못하면 최종 소프트웨어 제품의 품질은 저하되고, 이는 고객 만족 문제로 이어질 수 있습니다. 더 많은 제품을 출시하는 건 좋게 들리지만 문제 해결에 시간, 비용, 노력이 훨씬 더 많이 들어갈 수 있습니다. 비즈니스 성과를 측정하기란 어렵고, 이러한 측정은 종종 문제의 후행 지표가 되기도 합니다. 품질 결함, 보안 문제, 애플리케이션 성능 측정은 비즈니스에 미치는 영향력을 더 빨리 파악하는 방법입니다.