IT 업계에서 SRE(Site Reliability Engineer, 사이트 신뢰성 엔지니어)는 한때 ‘새벽 3시에 전화받는 사람’으로 불렸습니다. 시스템 장애가 발생하면 가장 먼저 호출돼 문제를 해결해야 했기 때문이죠. 마치 긴급 상황에서 불을 끄는 ‘디지털 소방관’ 같았습니다.
그러나 현재 AI 기반 운영 시스템(AIOps)을 도입한 일부 조직에서는 상황이 달라지고 있습니다. AI가 로그와 모니터링 데이터를 분석해 네트워크 지연이나 CPU 사용량 급증과 같은 이상 징후를 조기에 감지하고, 사전에 승인된 자동화를 실행하는데요. 그 결과, 반복적이고 예측 가능한 장애에서는 온콜 빈도와 MTTR(평균 복구 시간)이 줄어들고 있죠. 이에 SRE가 새벽에 긴급 출동할 필요성은 과거보다 낮아지고 있습니다.
물론 모든 조직이 이러한 변화를 경험하는 건 아닙니다. 여전히 많은 조직은 AI가 제안한 조치를 사람이 승인한 뒤에만 실행하죠. 아울러 AI가 모든 문제를 대신 해결하는 것도 불가능합니다. 사람과 AI가 함께 모델의 한계를 지속적으로 감시하고 보정해야 하고요. 조직은 승인·가드레일·롤백·격리 등 안전장치를 갖춘 운 영 프로세스를 설계해야 하죠. 이 글에서는 AI 시대의 신뢰성 개념 변화와 주요 AI 신뢰성 사례, AI 기반 SRE 업무의 변화와 AI 한계, 향후 발전 방안을 살펴보겠습니다.
SRE 진화: 가용성에서 AI 신뢰성까지
SRE는 소프트웨어 엔지니어링과 자동화를 활용해 대규모 시스템의 신뢰성과 효율성을 지표 기반으로 관리·개선하는 엔지니어링 분야입니다. 2003년 구글이 이 개념을 도입해 소프트웨어 엔지니어링 원칙을 ‘운영 업무’에 적용한 게 SRE의 시작이죠. 2016년 구글이 “Site Reliability Engineering”이라는 책을 출간하면서 SRE는 글로벌 IT 업계에 널리 확산됐습니다.
이후 SRE는 자동화 범위를 확대하고, 클라우드·컨테이너·마이크로서비스 환경에 맞춰 발전했습니다. 최근에는 AIOps와 결합해 장애 예측·자동 대응 능력을 강화하며 운영 효율성과 서비스 신뢰성을 강화하고 있죠.
기술 전문가 Denys Vasyliev는 글로벌 기술 미디어 The Newstack 기고에서 SRE의 발전 과정을 다음 세 가지 시대로 구분합니다. 아래 다이어그램은 각 시대의 관계를 보여줍니다.
제1 시대는 ‘가용성’의 시대입니다. 이 시기에는 서비스의 정상 작동 여부를 확인하기 위해 24시간 모니터링과 장애 복구 대응이 중요했습니다. 제2 시대는 ‘자동화’의 시대로, 서비스가 사람의 개입 없이 안 정적으로 운영되도록 자동 배포·복구 시스템을 도입했죠. 제3 시대는 ‘AI 신뢰성’의 시대로, AIOps 환경에서 AI의 신뢰성 평가·개선이 주요 과제가 됐고요. 이를 위해 AI 품질 측정과 예측 기반 운영이 핵심 활동으로 자리 잡았습니다.
시대 | 핵심 질문 | 주요 활동 |
---|---|---|
제1 시대 (가용성) | "서비스가 살아있나?" | 24시간 모니터링, 장애 복구 대응 |
제2 시대 (자동화) | "사람 없이도 잘 작동하나?" | 자동 배포·복구 시스템 운영 |
제3 시대 (AI 신뢰성) | "AI가 올바른 답을 내놓는가?" | AI 품질 측정, 예측 기반 운영 |
AI가 바꾼 '신뢰성'의 정의
SRE에 도입된 AI는 ‘신뢰성(Reliability)’의 의미를 새롭게 정의하고 있습니다. 특히 AI의 예측 불가능성과 비결정성 때문에 신뢰성의 기준은 과거보다 더 엄격해지고 있습니다.
전통적 신뢰성 vs AI 시대의 신뢰성
전통적인 시스템에서는 ‘속도와 안정성’이 신뢰성의 핵심이었습니다. 요청에 지연 없이 응답하고, 시스템이 중단되지 않으면 ‘신뢰성을 충족한다’고 판단했죠.
그러나 오늘날 AI 기반 시스템에서는 상황이 다릅니다. 이제는 ‘AI 판단 결과의 정확성과 일관성’이 신뢰성의 핵심 척도가 됐습니다. 예를 들어, 의료 상담 AI가 0.1초 만에 잘못된 정보를 제공하는 것보다 3초가 걸려도 언제나 정확한 답변을 제공하는 게 훨씬 더 높은 신뢰성을 보장합니다. 특히 AI의 환각 현상(Hallucination)을 방지하고, 최신 정보를 반영하는 건 정확성을 확보하는 핵심 과제입니다.
AI가 잘못된 판단을 내리면 이에 기반한 서비스 품질은 떨어집니다. 따라서 SRE는 AI 시대의 변화에 맞춰 신뢰성 지표를 재정의하고, 속도뿐만 아니라 결과의 정확성과 일관성을 함께 측정하는 방향으로 나아가야 합니다.

AI의 한계: 예측 불가능한 답변
문제는 ‘AI의 정확성을 100% 보장할 수 없다’는 점입니다. Denys Vasyliev의 분석에 따르면, AI 시스템의 핵심 특징은 비결정성(Non-determinism)인데요. 전통적인 시스템은 동일한 입력에 항상 동일한 출력을 내지만, AI는 같은 질문에도 매번 다른 답변을 생성할 수 있습니다. 이러한 출력은 일관되지 않으며, 때로는 존재하지 않는 정보를 실제인 것처럼 만들어내는 환각 현상도 발생합니다
AI의 예측 불가능성과 비결정성은 운영 환경에서 다음과 같은 문제를 일으킵니다.
- 같은 문의에 다른 답변 → 사용자 혼란 유발
- 일관성 없는 분석 결과 → 시스템 신뢰도 하락
- 매번 달라지는 출력 → 테스트, 품질 평가의 어려움 발생
- 환각 현상 → 치명적인 오답 제공
이러한 AI의 특성과 한계를 어떻게 측정하고 관리해야 할까요? 이것이 SRE 제3 시대가 직면한 핵심 과제입니다.
메르카리 사례로 본 AI 신뢰성의 현실
AI의 예측 불가능성과 비결정성에 따른 문제는 실제 서비스 운영에도 영향을 줄 수 있습니다. 일본의 대표적인 중고 거래 플랫폼, 메르카리(Mercari)가 그 사례입니다.
요약 AI의 신뢰성 문제
메르카리는 하루 수백 만 건의 중고 상품이 등록되는 대규모 플랫폼입니다. 판매자들은 구매자의 관심과 신뢰를 얻기 위해 상세 페이지에 상품 상태를 길고 자세하게 작성하는데요. 이 내용이 A4 용지 한 장 분량을 넘을 때도 많습니다.
구매자들은 “너무 길다. 핵심만 요약해서 보고 싶다”고 요구했습니다. 이에 메르카리는 AI 기반 상품 정보 자동 요약 시스템을 개발했습니다.
테스트 중에 발견한 문제
메르카리는 내부 테스트 과정에서 다음과 같은 문제를 발견했습니다.
- 원문: "아이폰 12 프로 256GB 스페이스 그레이입니다. 1년 정도 사용했고 배터리 성능은 87%입니다.
전체적으로 깨끗하지만, 화면 오른쪽 아래에 머리카락 굵기의 실금이 있습니다..."
- AI 요약: "아이폰 12 프로, 1년 사용, 배터리 87%, 깨끗한 상태"
핵심 정보인 '화면 실금'이 AI 요약에는 누락됐습니다. 구매자가 이 내용을 보면 하자 없는 제품으로 오해할 수 있죠. 상품을 받은 뒤 실금을 발견하면, “속았다”는 인상을 받을 수 있고요. 메르카리의 브랜드 신뢰도까지 손상될 수 있습니다.
더 위험한 환각 사례
다른 테스트에서는 AI가 원문에 없는 문장을 추가했습니다.
- AI 요약: "방수 기능 완벽"
이는 AI가 “아이폰에는 방수 기능이 있을 것”이라고 추론해 실제 확인되지 않은 정보를 임의로 생성한 것입니다. 환각 현상의 전형적인 예죠. 이처럼 잘못된 정보가 서비스에 반영되면, 고객 경험과 운영 신뢰성을 모두 저하할 수 있습니다.
해결책: AI로 AI를 평가하기
AI의 정보 누락과 환각 현상은 심각한 신뢰성 저하를 초래할 위험이 있었습니다. 그러나 상품 정보가 방대해 사람이 AI 요약 품질을 전수 검토하는 건 불가능했죠.
이때, 한 개발자가 다음과 같이 제안했습니다. “학생이 쓴 답을 선생님이 채점하듯, 요약 AI를 더 똑똑한 AI가 평가하면 어떨까요?”
이 아이디어를 바탕으로 한 시스템의 개요는 다음과 같습니다.
- 서비스 AI: 상품 설명을 요약하는 역할 (‘학생’)
- 평가 AI: GPT-4 등 고성능 모델이 요약 품질을 평가 (‘선생님’)
- 검사 항목 3가지
- 중요 정보 누락 여부
- 사실 왜곡 여부
- 환각 발생 여부
이러한 접근 방식은 대규모 서비스 환경에서 AI 기능의 품질을 지속적으로 관리하고, 사용자 신뢰를 유지하는 데 효과적일 거로 예상됐습니다.
실제 구현: DeepEval 기반 AI 자동 평가 시스템
메르카리는 오픈 소스 AI 품질 평가 프레임워크 ‘DeepEval’을 활용해 AI로 AI 요약 품질을 자동 평가하는 시스템을 구축했습니다.
작동 방식
- 매일 밤, 요약 시스템이 샘플 100개를 테스트
- 서비스 AI가 요약 생성 → 평가 AI(GPT-4)가 정답과 비교해 0~1 사이의 품질 점수 부여
- 평균 점수가 0.9 미만이면 경고, 0.85 미만이면 자동 롤백
핵심 평가 지표
평가 AI는 다음 세 가지 기준으로 AI 요약 품질을 평가합니다.
항목 | 설명 | 예시 |
---|---|---|
Relevancy (관련성) | 요약 내용과 원문의 관련성 여부 확인 | 가방 설명에 ‘신발’ 내용 등장 여부 |
Correctness (정확성) | 요약 내용과 원문의 사실 일치 여부 확인 | ‘빨간색 가방’ → ‘파란색 가방’ 기재 여부 |
No Hallucination (환각 없음) | 원문에 없는 내용 추가 여부 확인 | 원문에 없는 '가죽 재질' 추가 여부 |
평가 예시
- 원문: "파란색 가방"
- AI 요약: "파란색 가죽 가방"
- 평가 결과: "❌ 0.3점 - 원문에 없는 '가죽' 추가 (환각)"
이처럼 평가 결과가 기준에 못 미치면, 해당 요약은 경고 또는 롤백 프로세스에 따라 처리됩니다. 이로써 서비스의 상품 정보 품질 저하를 방지할 수 있습니다.
도입 효과
이 시스템을 도입한 뒤, 메르카리는 사용자 경험과 운영 효율성 측면에서 의미 있는 성과를 거뒀습니다. 다음 표는 도입 전후의 주요 지표 변화를 보여줍니다.
항목 | 도입 전 | 도입 후 | 효과 |
---|---|---|---|
사용자 신고 건수 | 높음 | 90% 감소 | 신뢰도 향상 |
AI 품질 관리 방식 | 수동 | 자동 (24시간) | 운영 효율성 증가 |
확장성 | 한계 O | 거래량 10배 증가 시에도 문제 없음 | 무한 확장 가능 |
특히 ‘사고 예방 효과’가 컸습니다. 잘못된 요약에 따른 구매자 불만과 브랜드 신뢰도 하락을 사전에 방지할 수 있었고요. 그 결과, 서비스 전반의 품질을 안정적으로 향상할 수 있었죠. 이 사례는 AI 기능을 도입할 때, AI 신뢰성을 보장하는 체계적이고 효율적인 검증·감시 프로세스가 필수임을 보여줍니다.