SRE 3.0 - AI가 바꾸는 장애 대응·신뢰성·운영 패러다임

Software Engineer

2025년 8월 13일 · 약 18분

IT 업계에서 SRE(Site Reliability Engineer, 사이트 신뢰성 엔지니어)는 한때 ‘새벽 3시에 전화받는 사람’으로 불렸습니다. 시스템 장애가 발생하면 가장 먼저 호출돼 문제를 해결해야 했기 때문이죠. 마치 긴급 상황에서 불을 끄는 ‘디지털 소방관’ 같았습니다.

그러나 현재 AI 기반 운영 시스템(AIOps)을 도입한 일부 조직에서는 상황이 달라지고 있습니다. AI가 로그와 모니터링 데이터를 분석해 네트워크 지연이나 CPU 사용량 급증과 같은 이상 징후를 조기에 감지하고, 사전에 승인된 자동화를 실행하는데요. 그 결과, 반복적이고 예측 가능한 장애에서는 온콜 빈도와 MTTR(평균 복구 시간)이 줄어들고 있죠. 이에 SRE가 새벽에 긴급 출동할 필요성은 과거보다 낮아지고 있습니다.

물론 모든 조직이 이러한 변화를 경험하는 건 아닙니다. 여전히 많은 조직은 AI가 제안한 조치를 사람이 승인한 뒤에만 실행하죠. 아울러 AI가 모든 문제를 대신 해결하는 것도 불가능합니다. 사람과 AI가 함께 모델의 한계를 지속적으로 감시하고 보정해야 하고요. 조직은 승인·가드레일·롤백·격리 등 안전장치를 갖춘 운영 프로세스를 설계해야 하죠. 이 글에서는 AI 시대의 신뢰성 개념 변화와 주요 AI 신뢰성 사례, AI 기반 SRE 업무의 변화와 AI 한계, 향후 발전 방안을 살펴보겠습니다.

SRE 진화: 가용성에서 AI 신뢰성까지

SRE는 소프트웨어 엔지니어링과 자동화를 활용해 대규모 시스템의 신뢰성과 효율성을 지표 기반으로 관리·개선하는 엔지니어링 분야입니다. 2003년 구글이 이 개념을 도입해 소프트웨어 엔지니어링 원칙을 ‘운영 업무’에 적용한 게 SRE의 시작이죠. 2016년 구글이 “Site Reliability Engineering”이라는 책을 출간하면서 SRE는 글로벌 IT 업계에 널리 확산됐습니다.

이후 SRE는 자동화 범위를 확대하고, 클라우드·컨테이너·마이크로서비스 환경에 맞춰 발전했습니다. 최근에는 AIOps와 결합해 장애 예측·자동 대응 능력을 강화하며 운영 효율성과 서비스 신뢰성을 강화하고 있죠.

기술 전문가 Denys Vasyliev는 글로벌 기술 미디어 The Newstack 기고에서 SRE의 발전 과정을 다음 세 가지 시대로 구분합니다. 아래 다이어그램은 각 시대의 관계를 보여줍니다.

제1 시대는 ‘가용성’의 시대입니다. 이 시기에는 서비스의 정상 작동 여부를 확인하기 위해 24시간 모니터링과 장애 복구 대응이 중요했습니다. 제2 시대는 ‘자동화’의 시대로, 서비스가 사람의 개입 없이 안정적으로 운영되도록 자동 배포·복구 시스템을 도입했죠. 제3 시대는 ‘AI 신뢰성’의 시대로, AIOps 환경에서 AI의 신뢰성 평가·개선이 주요 과제가 됐고요. 이를 위해 AI 품질 측정과 예측 기반 운영이 핵심 활동으로 자리 잡았습니다.

시대	핵심 질문	주요 활동
제1 시대 (가용성)	"서비스가 살아있나?"	24시간 모니터링, 장애 복구 대응
제2 시대 (자동화)	"사람 없이도 잘 작동하나?"	자동 배포·복구 시스템 운영
제3 시대 (AI 신뢰성)	"AI가 올바른 답을 내놓는가?"	AI 품질 측정, 예측 기반 운영

AI가 바꾼 '신뢰성'의 정의

SRE에 도입된 AI는 ‘신뢰성(Reliability)’의 의미를 새롭게 정의하고 있습니다. 특히 AI의 예측 불가능성과 비결정성 때문에 신뢰성의 기준은 과거보다 더 엄격해지고 있습니다.

전통적 신뢰성 vs AI 시대의 신뢰성

전통적인 시스템에서는 ‘속도와 안정성’이 신뢰성의 핵심이었습니다. 요청에 지연 없이 응답하고, 시스템이 중단되지 않으면 ‘신뢰성을 충족한다’고 판단했죠.

그러나 오늘날 AI 기반 시스템에서는 상황이 다릅니다. 이제는 ‘AI 판단 결과의 정확성과 일관성’이 신뢰성의 핵심 척도가 됐습니다. 예를 들어, 의료 상담 AI가 0.1초 만에 잘못된 정보를 제공하는 것보다 3초가 걸려도 언제나 정확한 답변을 제공하는 게 훨씬 더 높은 신뢰성을 보장합니다. 특히 AI의 환각 현상(Hallucination)을 방지하고, 최신 정보를 반영하는 건 정확성을 확보하는 핵심 과제입니다.

AI가 잘못된 판단을 내리면 이에 기반한 서비스 품질은 떨어집니다. 따라서 SRE는 AI 시대의 변화에 맞춰 신뢰성 지표를 재정의하고, 속도뿐만 아니라 결과의 정확성과 일관성을 함께 측정하는 방향으로 나아가야 합니다.

과거와 현재 신뢰성 정의 비교

AI의 한계: 예측 불가능한 답변

문제는 ‘AI의 정확성을 100% 보장할 수 없다’는 점입니다. Denys Vasyliev의 분석에 따르면, AI 시스템의 핵심 특징은 비결정성(Non-determinism)인데요. 전통적인 시스템은 동일한 입력에 항상 동일한 출력을 내지만, AI는 같은 질문에도 매번 다른 답변을 생성할 수 있습니다. 이러한 출력은 일관되지 않으며, 때로는 존재하지 않는 정보를 실제인 것처럼 만들어내는 환각 현상도 발생합니다

AI의 예측 불가능성과 비결정성은 운영 환경에서 다음과 같은 문제를 일으킵니다.

같은 문의에 다른 답변 → 사용자 혼란 유발
일관성 없는 분석 결과 → 시스템 신뢰도 하락
매번 달라지는 출력 → 테스트, 품질 평가의 어려움 발생
환각 현상 → 치명적인 오답 제공

이러한 AI의 특성과 한계를 어떻게 측정하고 관리해야 할까요? 이것이 SRE 제3 시대가 직면한 핵심 과제입니다.

메르카리 사례로 본 AI 신뢰성의 현실

AI의 예측 불가능성과 비결정성에 따른 문제는 실제 서비스 운영에도 영향을 줄 수 있습니다. 일본의 대표적인 중고 거래 플랫폼, 메르카리(Mercari)가 그 사례입니다.

요약 AI의 신뢰성 문제

메르카리는 하루 수백만 건의 중고 상품이 등록되는 대규모 플랫폼입니다. 판매자들은 구매자의 관심과 신뢰를 얻기 위해 상세 페이지에 상품 상태를 길고 자세하게 작성하는데요. 이 내용이 A4 용지 한 장 분량을 넘을 때도 많습니다.

구매자들은 “너무 길다. 핵심만 요약해서 보고 싶다”고 요구했습니다. 이에 메르카리는 AI 기반 상품 정보 자동 요약 시스템을 개발했습니다.

테스트 중에 발견한 문제

메르카리는 내부 테스트 과정에서 다음과 같은 문제를 발견했습니다.

- 원문: "아이폰 12 프로 256GB 스페이스 그레이입니다. 1년 정도 사용했고 배터리 성능은 87%입니다. 
        전체적으로 깨끗하지만, 화면 오른쪽 아래에 머리카락 굵기의 실금이 있습니다..."
- AI 요약: "아이폰 12 프로, 1년 사용, 배터리 87%, 깨끗한 상태"

핵심 정보인 '화면 실금'이 AI 요약에는 누락됐습니다. 구매자가 이 내용을 보면 하자 없는 제품으로 오해할 수 있죠. 상품을 받은 뒤 실금을 발견하면, “속았다”는 인상을 받을 수 있고요. 메르카리의 브랜드 신뢰도까지 손상될 수 있습니다.

더 위험한 환각 사례

다른 테스트에서는 AI가 원문에 없는 문장을 추가했습니다.

- AI 요약: "방수 기능 완벽"

이는 AI가 “아이폰에는 방수 기능이 있을 것”이라고 추론해 실제 확인되지 않은 정보를 임의로 생성한 것입니다. 환각 현상의 전형적인 예죠. 이처럼 잘못된 정보가 서비스에 반영되면, 고객 경험과 운영 신뢰성을 모두 저하할 수 있습니다.

해결책: AI로 AI를 평가하기

AI의 정보 누락과 환각 현상은 심각한 신뢰성 저하를 초래할 위험이 있었습니다. 그러나 상품 정보가 방대해 사람이 AI 요약 품질을 전수 검토하는 건 불가능했죠.

이때, 한 개발자가 다음과 같이 제안했습니다. “학생이 쓴 답을 선생님이 채점하듯, 요약 AI를 더 똑똑한 AI가 평가하면 어떨까요?”

이 아이디어를 바탕으로 한 시스템의 개요는 다음과 같습니다.

서비스 AI: 상품 설명을 요약하는 역할 (‘학생’)
평가 AI: GPT-4 등 고성능 모델이 요약 품질을 평가 (‘선생님’)
검사 항목 3가지
- 중요 정보 누락 여부
- 사실 왜곡 여부
- 환각 발생 여부

이러한 접근 방식은 대규모 서비스 환경에서 AI 기능의 품질을 지속적으로 관리하고, 사용자 신뢰를 유지하는 데 효과적일 거로 예상됐습니다.

실제 구현: DeepEval 기반 AI 자동 평가 시스템

메르카리는 오픈 소스 AI 품질 평가 프레임워크 ‘DeepEval’을 활용해 AI로 AI 요약 품질을 자동 평가하는 시스템을 구축했습니다.

작동 방식

매일 밤, 요약 시스템이 샘플 100개를 테스트
서비스 AI가 요약 생성 → 평가 AI(GPT-4)가 정답과 비교해 0~1 사이의 품질 점수 부여
평균 점수가 0.9 미만이면 경고, 0.85 미만이면 자동 롤백

핵심 평가 지표

평가 AI는 다음 세 가지 기준으로 AI 요약 품질을 평가합니다.

항목	설명	예시
Relevancy (관련성)	요약 내용과 원문의 관련성 여부 확인	가방 설명에 ‘신발’ 내용 등장 여부
Correctness (정확성)	요약 내용과 원문의 사실 일치 여부 확인	‘빨간색 가방’ → ‘파란색 가방’ 기재 여부
No Hallucination (환각 없음)	원문에 없는 내용 추가 여부 확인	원문에 없는 '가죽 재질' 추가 여부

평가 예시

- 원문: "파란색 가방"
- AI 요약: "파란색 가죽 가방"
- 평가 결과: "❌ 0.3점 - 원문에 없는 '가죽' 추가 (환각)"

이처럼 평가 결과가 기준에 못 미치면, 해당 요약은 경고 또는 롤백 프로세스에 따라 처리됩니다. 이로써 서비스의 상품 정보 품질 저하를 방지할 수 있습니다.

도입 효과

이 시스템을 도입한 뒤, 메르카리는 사용자 경험과 운영 효율성 측면에서 의미 있는 성과를 거뒀습니다. 다음 표는 도입 전후의 주요 지표 변화를 보여줍니다.

항목	도입 전	도입 후	효과
사용자 신고 건수	높음	90% 감소	신뢰도 향상
AI 품질 관리 방식	수동	자동 (24시간)	운영 효율성 증가
확장성	한계 O	거래량 10배 증가 시에도 문제 없음	무한 확장 가능

특히 ‘사고 예방 효과’가 컸습니다. 잘못된 요약에 따른 구매자 불만과 브랜드 신뢰도 하락을 사전에 방지할 수 있었고요. 그 결과, 서비스 전반의 품질을 안정적으로 향상할 수 있었죠. 이 사례는 AI 기능을 도입할 때, AI 신뢰성을 보장하는 체계적이고 효율적인 검증·감시 프로세스가 필수임을 보여줍니다.

SRE 측면 의의

이 사례는 SRE 관점에서 중요한 시사점을 줍니다. 잘못된 AI 출력이 누적되면 CS 티켓 급증, 처리 지연, 운영팀 리소스 분산 문제가 발생합니다. 그 결과, 서비스 응답 속도는 느려지고, 운영 SLO(Service Level Objective)까지 위반할 수 있죠. 또 사용자가 이탈하거나 브랜드 신뢰도가 하락해 서비스 오류 허용 한도를 예상보다 빨리 넘길 위험도 있습니다.

메르카리가 구축한 AI 요약 품질 자동 평가 시스템은 SRE에서 중요한 MTTR 단축과 장애 예방에 도움이 됩니다. 품질 기준에 미달한 AI 요약 결과를 차단하거나 수정하면, 사용자 경험 저하를 막을 수 있죠. 이는 SRE 제3 시대인 ‘AI 신뢰성’ 시대의 필수 과제인 AI 품질 관리와 운영 안정성 확보의 좋은 예입니다.

AI 기반 SRE의 발전: 예측에서 해결까지

앞선 메르카리 사례는 ‘콘텐츠 품질 관리’라는 특정 서비스 기능에서 AI 신뢰성을 확보한 예입니다. 그렇다면 전통적인 SRE 분야(시스템 가용성과 안정성 관리)에서 AI는 어떻게 활용되고 있을까요? 지금부터 AIOps를 중심으로 한 장애 대응 패러다임의 전환과 메르카리의 독자적 접근 사례를 살펴보겠습니다.

장애 대응 패러다임의 전환

과거에는 장애가 발생해야만 대응할 수 있었습니다. 시스템이 멈춘 뒤 알람이 울리고, 엔지니어가 출동해 원인을 찾고, 수동으로 조치하던 시절이었죠. "반응 속도"가 운영 역량의 척도였던 시대였습니다.

그러나 AI 도입 이후, 장애 대응 방식은 다음과 같이 바뀌었습니다.

장애 발생 전: 이상 징후 감지 → 자동 분석
실시간 대응: 원인 추론 → 자동 조치
사후 학습: 대응 → 지속적 학습, 개선

즉, 사후 대응 → 사전 예방으로 중심축이 이동했습니다. 이는 화재가 난 후 불을 끄던 소방서가 화재 위험을 사전에 제거하는 조직으로 바뀐 것과 같습니다.

AIOps의 핵심 운영 방식

AIOps는 단순한 모니터링 도구에 그치지 않습니다. 이는 예측, 통합, 자연어 인터페이스를 포함한 차세대 운영 플랫폼으로 진화하고 있죠. 그 결과, SRE의 핵심 목표인 MTTR 단축과 SLO 준수에 기여합니다.

혁신 1: 장애 예측

전통적인 모니터링 방식의 한계는 ‘사후 감지’였습니다. CPU가 100%를 넘어야 알람이 울리고, 사용자는 이미 느려진 서비스를 경험한 상태였죠.

그러나 Datadog, Splunk 등의 AIOps 기능은 머신러닝으로 시스템의 ‘정상’ 상태 패턴을 학습하고, 미세한 변화조차 조기 감지합니다. 이로써 장애 영향을 완화하거나 예방해 오류 허용 한도를 더 안정적으로 관리할 수 있습니다.

실제 사례:

- 온라인 쇼핑몰의 데이터베이스 연결 수가 평소 100~150개에서 며칠간 160 → 170 → 180개로 증가
- AI 판단: “과거 동일 패턴이 3회 있었고, 모두 장애로 이어졌습니다. 
           현재 추세라면 오후 3시경 장애 예상됩니다. 사전 조치 권장합니다.”

위 사례는 마치 의사가 “현재 혈압은 정상이지만, 상승 추세입니다. 지금부터 관리하시죠”라고 말하는 것과 같습니다.

혁신 2: 알람 통합

Gartner의 분석에 따르면, 대형 시스템 운영자의 75%가 '알람 피로(Alert Fatigue)'를 겪고 있습니다. 왜일까요? 현대 IT 시스템은 서로 복잡하게 연결돼 있습니다. 따라서 하나의 문제가 도미노처럼 연쇄 반응을 일으키다 보니 수많은 알람이 잇따라 울리죠.

예를 들어, 데이터베이스(DB)가 느려지면,

DB 모니터링에서는 "응답 시간 지연!" → 3개 알람
애플리케이션 서버 20대에서 "DB 연결 실패!" → 각 5개씩 총 100개 알람
웹 서버에서 "페이지 로딩 지연!" → 50개 알람
비즈니스 모니터링에서 "주문 실패 증가!" → 10개 알람

순식간에 163개의 알람이 동시에 울립니다. 당직 엔지니어는 이 알람의 바다에서 근본 원인을 찾아야 합니다. 이 과정에서 MTTR은 길어지고, SLO 위반 위험이 커질 수 있죠. 스트레스는 극에 달하고, 정작 중요한 신호를 놓칠 수도 있습니다.

AIOps 플랫폼은 이런 알람을 구조적으로 해석하고, 하나의 근본 원인으로 묶어 제공합니다. 마치 훌륭한 의사가 "열, 기침, 두통, 근육통... 이 모든 증상은 독감 때문입니다"라고 한 번에 진단하는 것처럼 장애 원인을 신속히 특정할 수 있습니다. 그 결과, 불필요한 알람도 줄일 수 있고요.

과거와 현재 알람 프로세스 비교

혁신 3: 자연어 명령

메가존소프트와 Microsoft에 따르면, SRE의 가장 큰 진입 장벽은 복잡한 명령어입니다. 이는 긴급 상황에서 대응 시간을 지연시킬 수 있죠. 예를 들어, "최근 1시간 동안 에러가 가장 많이 발생한 서비스 5개"를 찾으려면 아래와 같은 명령어를 작성해야 하는데요.

topk(5, sum by (service) (increase(http_requests_total{status=~"5.."}[1h])))

경력이 10년인 엔지니어도 이런 명령어를 즉석에서 완벽하게 작성하기는 어렵습니다. 과거 노트를 찾아보거나, 구글링하거나, 동료에게 물어보고 작성하죠. 이는 긴급 상황에 신속히 대응하는 데 치명적인 지연이 될 수 있습니다.

Duet AI for Google Cloud와 Microsoft의 Azure SRE Agent는 이 문제를 다음과 같이 해결했습니다. 이제 엔지니어는 자연어로 명령만 내리면 됩니다.

대화 예시:
- 엔지니어: "지난 1시간 동안 에러가 가장 많이 난 서비스 5개 보여줘"
- AI: "분석 완료. 다음 5개 서비스에서 에러가 집중 발생했습니다.
    1. payment-service (342건)
    2. order-processor (128건)..."
- 엔지니어: "payment-service의 최근 에러 로그 분석해줘"
- AI: "주요 에러 패턴: 외부 결제 API 타임아웃 발생(89%) 
       원인: 결제 대행사 서버 응답 지연 
       권장 조치: 1) 타임아웃 임시 증가 2) 대행사에 문의"

더 놀라운 건 AI가 상황을 이해하고 추가 조치까지 제안한다는 점입니다. "이 에러율이면 고객 영향이 클 것 같은데, 결제 서비스를 백업 시스템으로 전환할까요?"처럼 말이죠.

이는 마치 경험 많은 비서가 "이번 주 중요한 미팅이 뭐가 있죠?"라는 질문에 일정을 바로 정리해 주고, "금요일 미팅은 장소가 멀어서 30분 일찍 출발하셔야 해요"라고 조언까지 해주는 것과 같습니다. 이처럼 자연어 명령으로 복잡한 CLI 작업을 단축해 장애 대응 속도와 SLO 준수율을 높일 수 있습니다.

메르카리의 독자적 접근: 과거를 기억하는 AI, IBIS

앞서 소개한 AIOps 솔루션은 이상 징후 감지, 알람 통합, 자연어 분석을 중심으로 발전하고 있습니다. 이에 더해 흥미로운 접근 방식이 현업에 활용되고 있는데요. 메르카리가 개발한 IBIS(Incident Buddy & Insight System)가 그 예입니다.

IBIS는 이름 그대로 '사고 대응을 도와주는 지능형 동료'입니다. 조직의 운영 ‘기억’을 활용한 사고 대응 시스템이죠. 일반적인 AIOps 플랫폼은 현재 발생하는 이벤트 패턴에 초점을 맞춥니다. 그러나 IBIS는 수년간 축적된 회사의 장애 보고서, 대응 내역, RCA(Root Cause Analysis) 데이터를 벡터 DB로 저장·학습해 다음과 같은 기능을 수행합니다.

기능	설명
실시간 대응 연동	Slack 등 협업 도구에 "DB 오류 발생!" 입력만으로 자동 실행
유사도 기반 검색	현재 장애와 수천 건의 과거 기록을 비교해 유사 사례 추출
맥락 있는 조언	단순 요약이 아닌, ‘누가-언제-어떻게’ 해결했는지까지 제공

IBIS는 마치 10년 차 선배 엔지니어가 “작년 블랙 프라이데이에도 비슷한 장애가 있었어. 김 대리가 이렇게 해결했지”라고 말해주는 것처럼, 신입 엔지니어도 실제 해결 전략과 맥락을 빠르게 파악하도록 돕습니다. 이 또한 과거 지식을 재활용해 장애 진단 시간을 크게 줄이고, MTTR을 단축하는 효과가 있죠.

현실과 미래

이렇듯 AI는 SRE의 업무를 크게 바꾸고 있습니다. 물론 모든 기술이 그렇듯, AI에도 장점과 한계가 모두 있습니다. 중요한 것은 이를 정확히 인지하고, 균형 있게 활용하는 것입니다.

AI의 한계

TechShift.io의 2025년 전망 보고서에서는 AI 기반 시스템 도입 시 반드시 고려해야 할 제약 요인을 다음과 같이 제시합니다.

주의사항	설명
AI도 실수한다	예측이 항상 맞는 것은 아니다.
비즈니스 판단은 인간의 몫	"이 장애가 얼마나 중요한가?"는 AI가 모른다.
보안과 규정은 필수	AI에게 모든 권한을 주는 것은 위험하다.

기술 조직은 이러한 점을 고려해 성능뿐만 아니라 품질 유지 전략, 권한 관리, 보안 강화 방안을 함께 고려해 AI 기반 SRE 전략을 설계해야 합니다. 그렇지 않으면 AI의 속도 이점이 SLO 위반과 운영 리스크 증가로 이어질 수 있습니다. AI는 강력한 도구지만, 단독으로 운영을 맡기기에는 위험 요소가 많습니다. 따라서 인간과 AI 협업 구조에 기반한 운영 모델이 필요합니다.

인간과 AI의 협업 모델

그렇다면, AI 시대의 SRE는 어떤 모습이어야 할까요? 정답은 “협업(Co-work)”입니다. AI와 인간은 각자의 강점을 살려 서로 보완할 때 최고의 성과를 냅니다. 앞서 살펴본 AI의 한계는 인간의 개입과 의사결정으로도 보완할 수 있습니다. 또 인간이 하기에 어려운 작업은 AI가 대신할 수도 있죠.

AI는 지치지 않고 방대한 로그를 분석하고, 패턴을 감지해 문제를 조기에 경고합니다. 반면 인간은 상황의 맥락과 비즈니스 우선순위, 조직의 가치와 윤리를 종합적으로 고려해 전략적 결정과 책임 있는 판단을 내리죠. AI 속도와 인간의 통찰을 결합할 때, SRE의 핵심 목표를 원활히 달성할 수 있을 것입니다.

맺음말

새벽 3시의 전화는 줄어들었습니다. 그러나 SRE의 역할은 그 어느 때보다 중요해졌습니다. 과거의 SRE가 시스템 관리자이자 장애 해결사였다면, 지금의 SRE는 AI와 협력하는 운영 전략가로 진화하고 있습니다. 이 변화는 이론이나 예측이 아니라 이미 진행 중인 현실입니다.

메르카리는 AI 품질 자동 평가 시스템으로 서비스 신뢰도를 높였습니다.
Google, Microsoft는 자연어로 시스템을 제어하는 인터페이스를 도입했습니다.
AIOps 플랫폼은 장애를 예측하고, 문제를 사전에 차단하고 있습니다.

그러면 당장 무엇부터 시작하면 좋을까요? 작고 단순한 것부터 꾸준히 실천해 보세요.

단순 반복 작업을 자동화하고,
AI 기반 모니터링 도구를 도입하고,
로그 분석을 자동화 도구에 맡기는 것부터.

중요한 것은 AI를 경쟁자가 아닌 ‘협력자’로 받아들이는 태도입니다. SRE 제3 시대, AI는 여러분의 새벽잠을 지켜주는 든든한 동료로 발전할 것입니다.

참고 자료

T-sato, “SRE2.0: No LLM Metrics, No Future: Why SRE Must Grasp LLM Evaluation Now”, Mercari, 2025-06-16, https://engineering.mercari.com/en/blog/entry/20250612-d2c354901d/
Denys Vasyliev, “AI Reliability Engineering: Welcome to the Third Age of SRE”, The Newstack, 2025-06-04, https://thenewstack.io/ai-reliability-engineering-welcome-to-the-third-age-of-sre/
Andrew Mallaband, “The AI-SRE Frontier: From Hype to Practical Application”, LinkedIn, 2025-06-24, https://www.linkedin.com/pulse/ai-sre-frontier-from-hype-practical-application-andrew-mallaband-e26xe/
“AIOps Platforms Reviews and Ratings”, Gartner, https://www.gartner.com/reviews/market/aiops-platforms
“Azure SRE 에이전트 개요”, Microsoft, https://learn.microsoft.com/ko-kr/azure/sre-agent/overview
“SRE(Site Reliability Engineering) 엔지니어를 위한 Duet AI 활용 방법”, 메가존소프트, https://www.megazonesoft.com/site-reliability-engineeringr_duetai/
Jay Tillotson, “How AI and Machine Learning Are Transforming SRE in 2025”, Techshift, 2025-07-03, https://techshift.io/2025/07/03/how-ai-and-machine-learning-are-transforming-sre-in-2025/

우리 회사에 딱 맞는 DevSecOps 관행과 프레임워크가 필요하신가요? DevOps 전문가 인포그랩과 상의하세요.

SRE 진화: 가용성에서 AI 신뢰성까지​

AI가 바꾼 '신뢰성'의 정의​

전통적 신뢰성 vs AI 시대의 신뢰성​

AI의 한계: 예측 불가능한 답변​

메르카리 사례로 본 AI 신뢰성의 현실​

요약 AI의 신뢰성 문제​

테스트 중에 발견한 문제​

더 위험한 환각 사례​

해결책: AI로 AI를 평가하기​

실제 구현: DeepEval 기반 AI 자동 평가 시스템​

작동 방식​

핵심 평가 지표​

평가 예시​

도입 효과​

SRE 측면 의의​

AI 기반 SRE의 발전: 예측에서 해결까지​

장애 대응 패러다임의 전환​

AIOps의 핵심 운영 방식​

혁신 1: 장애 예측​

혁신 2: 알람 통합​

혁신 3: 자연어 명령​

메르카리의 독자적 접근: 과거를 기억하는 AI, IBIS​

현실과 미래​

AI의 한계​

인간과 AI의 협업 모델​

맺음말​

참고 자료​