본문 바로가기

RCA

관측 가능성과 근본 원인 분석으로 완성하는 AIOps 실패하지 않는 관측 가능성과 AIOps 데이터 기반 운영이 책은 관측 가능성을 기반으로 분산 추적, 메트릭, 로그, 이벤트, 시스템 추적, 프로파일까지 이어지는 전 구간 관측과 데이터 구조화 전략을 통해 근본 원인 분석(RCA)의 실제 작동 원리를 체계적으로 설명한다. 프롬스케일 기반 SQL 분석, 메트릭 상관관계와 이상 탐지를 통해 장애의 범위를 좁히고, 나아가 오픈서치 기반 RAG/LLM, 벡터 임베딩/리랭킹, 에이전트 자동화, CMDB와 장애 목록 데이터 모델을 결합해 근본 원인 분석을 자동화하는 AIOps 아키텍처를 제시한다. SRE를 중심에 두고 AIOps를 보조 지능으로 활용하는 현실적인 운영 전략의 묘를 터득할 수 있다. 도서구매 사이트(가나다순) [교보문고] [도서11번가] [알라딘.. 더보기
AI가 바꾸는 SRE와 관측 가능성의 미래 SRE는 새벽에 호출받는 ‘디지털 소방관’으로 비유되기도 합니다. 언제든 장애가 발생하면 최대한 빠르게 대응해야 하니 상상만 해도 정말 고된 일일 것 같습니다. 쉽게 말하자면, 불이 발생했을 때 화재 현장에 가장 신속하고 완벽하게 화재를 진압하고, 다시 발생하지 않도록 문제 상황을 분석하고 방지하는 소방관과 같은 시스템 개발 업무입니다. [인터뷰] 네이버의 소방관 - Search SRE 강지훈 님 한편으로는 최근 ‘소프트웨어 엔지니어링의 미래는 SRE다’라는 글이 해커뉴스에 올라왔습니다. 바이브 코딩 같은 걸로 누구나 코딩은 할 수 있게 되었지만, SRE처럼 서비스를 안정적으로 운영하기 위한 전문 엔지니어링 역량은 (아직?) AI가 대체할 수 없어 수요가 늘 것이라는 주장이었죠(“SRE는 가장 많이 채.. 더보기