본문 바로가기

observability

관측 가능성과 근본 원인 분석으로 완성하는 AIOps 실패하지 않는 관측 가능성과 AIOps 데이터 기반 운영이 책은 관측 가능성을 기반으로 분산 추적, 메트릭, 로그, 이벤트, 시스템 추적, 프로파일까지 이어지는 전 구간 관측과 데이터 구조화 전략을 통해 근본 원인 분석(RCA)의 실제 작동 원리를 체계적으로 설명한다. 프롬스케일 기반 SQL 분석, 메트릭 상관관계와 이상 탐지를 통해 장애의 범위를 좁히고, 나아가 오픈서치 기반 RAG/LLM, 벡터 임베딩/리랭킹, 에이전트 자동화, CMDB와 장애 목록 데이터 모델을 결합해 근본 원인 분석을 자동화하는 AIOps 아키텍처를 제시한다. SRE를 중심에 두고 AIOps를 보조 지능으로 활용하는 현실적인 운영 전략의 묘를 터득할 수 있다. 도서구매 사이트(가나다순) [교보문고] [도서11번가] [알라딘.. 더보기
AI가 바꾸는 SRE와 관측 가능성의 미래 SRE는 새벽에 호출받는 ‘디지털 소방관’으로 비유되기도 합니다. 언제든 장애가 발생하면 최대한 빠르게 대응해야 하니 상상만 해도 정말 고된 일일 것 같습니다. 쉽게 말하자면, 불이 발생했을 때 화재 현장에 가장 신속하고 완벽하게 화재를 진압하고, 다시 발생하지 않도록 문제 상황을 분석하고 방지하는 소방관과 같은 시스템 개발 업무입니다. [인터뷰] 네이버의 소방관 - Search SRE 강지훈 님 한편으로는 최근 ‘소프트웨어 엔지니어링의 미래는 SRE다’라는 글이 해커뉴스에 올라왔습니다. 바이브 코딩 같은 걸로 누구나 코딩은 할 수 있게 되었지만, SRE처럼 서비스를 안정적으로 운영하기 위한 전문 엔지니어링 역량은 (아직?) AI가 대체할 수 없어 수요가 늘 것이라는 주장이었죠(“SRE는 가장 많이 채.. 더보기
모니터링의 새로운 미래 관측 가능성 마이크로서비스와 인공지능 사례 중심의 관측 가능성 실무 가이드 클라우드 네이티브 기술이 고도화되고 시스템이 복잡해질수록 근본 원인 분석을 위한 관측 가능성이 필수다. 이 책은 분산 서비스에서 빼놓을 수 없는 쿠버네티스를 기반으로 관측 가능성을 다룬다. 프로메테우스부터 그라파나, 오픈텔레메트리까지 다양하게 다루고 있어 관측 가능성에 대한 폭넓은 지식을 얻을 수 있다. 직접 실습할 수 있도록 Go 언어와 파이썬으로 개발한 마이크로서비스를 제공하며, 다양한 예제를 통해 시스템을 구축해보면서 근본 원인에 대한 분석 방법을 이해하도록 구성했다. 예제는 실무에 가깝게 구성되어 현장에서 바로 적용이 가능한 기술을 익힐 수 있다. 도서 구매 사이트(가나다순) [교보문고] [도서11번가] [알라딘] [예스이십사] [인터.. 더보기
외부 신호로 내부 상태를 예측하는 관측 가능성 '빙산의 일각'이라는 말이 있습니다. 어떠한 일이 대부분 숨겨져 있고 외부로 나타나 있는 것은 극히 일부분에 지나지 않을 때 비유적으로 이르는 말이죠. 시스템 운영에서 모니터링(monitoring)을 바다 위에 떠 있는 빙산에 빗대고, 관측 가능성(observabilty)을 그 아래 숨겨진 물밑 얼음덩어리로 비유한 글이 있습니다. 관측 가능성 기술을 통해 그만큼 시스템 운영에서 더 많은 부분을 살펴볼 수 있음을 의미하는 거겠죠? 분산 시스템이 고도화되고 클라우드 네이티브 서비스가 복잡해질수록 모니터링의 한계가 점점 다가옵니다. 개발자와 운영자 간 소통이 갈수록 힘들어지기도 해서 서비스의 내부 상태를 모두 파악하기조차 어렵습니다. 그럴 때 필요한 것이 바로 관측 가능성입니다. 관측 가능성이 모니터링을 완전.. 더보기