
실패하지 않는 관측 가능성과 AIOps 데이터 기반 운영
이 책은 관측 가능성을 기반으로 분산 추적, 메트릭, 로그, 이벤트, 시스템 추적, 프로파일까지 이어지는 전 구간 관측과 데이터 구조화 전략을 통해 근본 원인 분석(RCA)의 실제 작동 원리를 체계적으로 설명한다. 프롬스케일 기반 SQL 분석, 메트릭 상관관계와 이상 탐지를 통해 장애의 범위를 좁히고, 나아가 오픈서치 기반 RAG/LLM, 벡터 임베딩/리랭킹, 에이전트 자동화, CMDB와 장애 목록 데이터 모델을 결합해 근본 원인 분석을 자동화하는 AIOps 아키텍처를 제시한다. SRE를 중심에 두고 AIOps를 보조 지능으로 활용하는 현실적인 운영 전략의 묘를 터득할 수 있다.
도서구매 사이트(가나다순)
| [교보문고] [도서11번가] [알라딘] [예스이십사] [쿠팡] |
출판사 제이펍
저작권사 제이펍
원서명 (없음)
도서명 관측 가능성과 근본 원인 분석으로 완성하는 AIOps
부제 분산 추적 신호 분석부터 오픈서치와 RAG를 통한 자동화 프레임워크까지 관측 가능성으로 구축하는 운영 자동화 엔터프라이즈 AIOps 아키텍처
지은이 정현석
옮긴이 (없음)
감수자 (없음)
시리즈 (없음)
출판일 2026. 02. 26
페이지 628쪽
판 형 46배판변형(188*245*29.3)
제 본 무선(soft cover)
정 가 45,000원
ISBN 979-11-24205-17-4 (93000)
키워드 관찰가능성, observability, 근본원인분석, RCA, 이상탐지, 분산추적, 메트릭, SLO, 인프라, 장애대응
분 야 네트워크 / 빅데이터
관련 사이트
■ (없음)
관련 시리즈
■ (없음)
관련 포스트
■ 2026.02.02 - [출간 전 책 소식] - AI가 바꾸는 SRE와 관측 가능성의 미래
관련 도서
관련 파일 다운로드
■ (없음)
강의 보조 자료(교재로 채택하신 분들은 https://jpub.tistory.com/notice/1076을 통해 다음 자료를 요청하실 수 있습니다.)
■ 본문의 그림과 표
미리보기(앞부속, 본문 일부)
정오표 페이지
■ https://jpub.tistory.com/468989
도서구매 사이트(가나다순)
| [교보문고] [도서11번가] [알라딘] [예스이십사] [쿠팡] |
도서 소개
AI 시대 SRE를 위한 최고의 AIOps 바이블
AI 에이전틱 코딩 시대, 소프트웨어 엔지니어링의 핵심은 코드 작성이 아니라 서비스 운영 역량이라는 과감한 주장까지 나오고 있다. 장기간 안정적으로 시스템을 운영하는 SRE의 중요성이 부각된다는 것이다.
이 책은 이러한 시대적 요구에 부응하는, AI 시대의 SRE를 위한 바이블 같은 책이다. 관측 가능성에서 AIOps까지의 긴 흐름을 따라가며, 시스템 장애를 어떻게 이해하고 설명할 수 있는지 상세하게 풀어낸다. 로그나 메트릭을 나열하는 데 그치지 않고, 관측 가능성 데이터가 실제로 근본 원인 분석에 어떻게 사용되는지에 초점을 맞춘 점이 인상적이다.
현대 IT 인프라는 애플리케이션, 미들웨어, 클러스터, 네트워크, 커널, 하드웨어가 복잡하게 얽혀 있으며, 장애 원인은 단일 지점이 아닌 신호의 상관관계 속에 숨어 있다. 이에 분산 추적, 메트릭, 이벤트와 같은 서로 다른 신호를 데이터 관점에서 구조화하고 분석하는 과정을 구체적으로 설명한다. 은행, 통신사, 온라인 게임 등 산업별 사례를 수록한 것도 큰 장점으로서, 단순한 도구 소개가 아니라 운영 데이터를 어떻게 해석하고 연결해야 하는지에 대한 사고 과정을 깨우치게 한다.
한편으로는 인프라 저수준까지 내려가 들여다보는 만큼 따라가기 만만한 책은 아니지만, 현장에서 장애 대응과 분석을 반복한 경험이 있다면, 이 책이 제시하는 관점에 공감할 지점이 많을 것이다. 이론, 도구, 알고리즘, 데이터 모델, 그리고 현장에서 바로 적용 가능한 운영 전략까지, 관측 가능성을 단순한 유행어가 아닌 실질적인 분석 도구로 이해하고 싶은 모든 엔지니어에게 좋은 길잡이가 되는 책이다.
대상 독자
- 관측 가능성을 자동화하고 AIOps를 이해하고 싶은 데이터 엔지니어
- 근본 원인을 신속하게 식별하고 해결책을 이해하고 싶은 SRE
- 레거시가 많은 금융, 통신사에 근무하지만 새로운 관측 가능성을 도입하고 싶은 운영자
- 관측 가능성을 기술적으로 고도화하고 비즈니스적인 가치를 이해하고 싶은 아키텍트
- 테크 기업과 대기업의 관측 가능성 베스트 프랙티스가 궁금한 개발자
주요 내용
- 관측 가능성 신호 기반 애플리케이션/인프라 전 구간 통합 관측
- 분산 추적/스팬 메트릭과 시스템 추적(eBPF/KUtrace/ftrace)의 상관분석
- 프롬스케일 기반 메트릭/추적 SQL 분석과 데이터 구조화 전략
- 메트릭 상관관계 분석과 k-NN/RCF 기반 이상 탐지 기법
- 오픈서치 기반 이상 탐지/벡터 DB/RAG/LLM 질의응답 시스템
- CMDB/장애 목록 데이터 모델/에이전트를 결합한 AIOps 자동화
지은이 소개
정현석
액센츄어, 맥쿼리그룹에서 시스템 엔지니어로 근무했고, 현재 SK하이닉스에서 쿠버네티스 기반 데이터 플랫폼을 구축하고 있다. 고랭 기반의 컨트롤러, 웹훅, 스케줄러를 최적화하고, 배포부터 모니터링까지 전 구간의 성능과 관측 가능성을 개선하고 있다. 커널, 클러스터, 레거시, 마이크로서비스 등 다양한 시스템에서 지연과 에러를 식별해 근본 원인 분석과 IT 운영 자동화를 이루고 나아가 AIOps가 구현될 수 있도록 노력 중이다. 다양한 기술에 AI를 접목하여 기존에는 어려웠던 작업들이 개선되는 것을 확인하며, AI 전환을 연구하고 있다.
차례
이 책에 대하여 x
CHAPTER 1 근본 원인 분석이란 1
1.1 관측 가능성 2
__1.1.1 상관관계 5 / 1.1.2 대시보드 8 / 1.1.3 기술 스택 9
1.2 근본 원인 분석 과정 11
__1.2.1 문제 영역 식별 12 / 1.2.2 개별 요청 분석 17 / 1.2.3 하위 수준 이해 24
1.3 관측 가능성 신호 31
__1.3.1 로그 31 / 1.3.2 실사용자 모니터링 38 / 1.3.3 프로파일 49
__1.3.4 디버깅 57 / 1.3.5 이벤트 59 / 1.3.6 이상치 63
__1.3.7 근본 원인 분석 데이터 모델 64
1.4 요약 66
CHAPTER 2 근본 원인 분석의 접근법 67
2.1 14가지 상관관계 68
__2.1.1 분산 추적에서 시스템 추적으로 69 / 2.1.2 이벤트에서 추적으로 70
__2.1.3 추적에서 로그로 71 / 2.1.4 추적에서 프로파일로 71
__2.1.5 로그에서 프로파일로 72 / 2.1.6 메트릭에서 추적으로 72
__2.1.7 실사용자 모니터링에서 추적으로 73 / 2.1.8 이벤트에서 이상 탐지로 74
__2.1.9 로그에서 추적으로 74 / 2.1.10 네트워크에서 추적으로 75
__2.1.11 추적에서 메트릭으로 76 / 2.1.12 추적에서 서비스 맵으로 76
__2.1.13 서비스 맵에서 메트릭으로 77 / 2.1.14 메트릭에서 로그로 77
2.2 시각화 78
__2.2.1 폴리스탯 78 / 2.2.2 서비스 맵 79 / 2.2.3 히스토그램 80
__2.2.4 히트맵 81 / 2.2.5 시계열 차트 82 / 2.2.6 플레임 그래프 82
__2.2.7 스테이트 타임라인 83 / 2.2.8 스테이트 83
__2.2.9 추적 84 / 2.2.10 애너테이션 84
2.3 대시보드 개발 84
2.4 요약 87
CHAPTER 3 추적 중심의 관측 가능성 89
3.1 추적과 다른 신호들 90
3.2 추적의 작동 방식 91
__3.2.1 콘텍스트 94 / 3.2.2 전파자 95 / 3.2.3 추적 전파 100
__3.2.4 배기지 전파 105 / 3.2.5 오픈트레이싱 심 106
3.3 관리형 서비스의 전파 108
__3.3.1 AWS 클라우드프런트 데모 110 / 3.3.2 GCP Pub/Sub 데모 114
__3.3.3 애저 SQS 데모 121
3.4 메시지 서버의 전파 128
__3.4.1 솔러스 JMS 데모 129 / 3.4.2 팁코 JMS 데모 132
__3.4.3 MQTT 데모 134 / 3.4.4 카프카 데모 136
__3.4.5 스프링 클라우드 스트림 데모 138
3.5 EAI 서버의 전파 141
__3.5.1 추적 구현의 어려움 143 / 3.5.2 BPM 서버의 계측 144
3.6 블랙박스의 전파 144
3.7 서버 프레임워크의 전파 146
__3.7.1 미들웨어 146 / 3.7.2 마이크로서비스 패턴 147
__3.7.3 AWS 및 GCP API 서버 148 / 3.7.4 상용 관측 가능성 SDK 추적 데모 149
__3.7.5 마이크로미터 추적 데모 151 / 3.7.6 상용 관측 가능성과 오픈텔레메트리 데모 152
__3.7.7 웹소켓 데모 154
3.8 오픈텔레메트리 익스텐션 159
__3.8.1 바이트코드 계측 데모 161 / 3.8.2 익스텐션 데모 164
__3.8.3 익스텐션 디버깅 169
3.9 상용 관측 가능성의 전파 171
__3.9.1 상용 관측 가능성의 자동화 173 / 3.9.2 에이전트 카오스 177
3.10 요약 183
CHAPTER 4 산업별 근본 원인 분석 사례 184
4.1 은행의 관측 가능성 185
__4.1.1 은행 프로세스의 특성 186 / 4.1.2 은행 레거시 192 / 4.1.3 은행 데모 212
4.2 통신사의 관측 가능성 226
__4.2.1 통신사의 업무 227 / 4.2.2 통신사 오케스트레이션 서버 230
__4.2.3 통신사 아키텍처 232 / 4.2.4 주문 오케스트레이션 240
__4.2.5 네트워크 프로비저닝 245
4.3 온라인 게임의 관측 가능성 249
__4.3.1 온라인 게임 운영 250 / 4.3.2 온라인 게임 데모 252
__4.3.3 로그 254 / 4.3.4 메트릭 255 / 4.3.5 추적 256
4.4 증권사의 관측 가능성 258
__4.4.1 초저지연 애플리케이션 개발 258 / 4.4.2 초저지연 서버 사례 270
4.5 요약 272
CHAPTER 5 오픈텔레메트리 데모 274
5.1 데모 개요 275
__5.1.1 애플리케이션 276 / 5.1.2 파이프라인 277 / 5.1.3 피처 플래그 277
__5.1.4 배포 278 / 5.1.5 부하 테스트 278
5.2 SLO 278
__5.2.1 대시보드 279 / 5.2.2 가용성과 에러율 282
__5.2.3 데모의 에러 구현 283 / 5.2.4 차트 285
5.3 관측 가능성 데모 286
__5.3.1 프로파일 지원 287 / 5.3.2 오픈텔레메트리 에이전트 292
__5.3.3 오픈텔레메트리 컬렉터 292 / 5.3.4 실사용자 모니터링 294
__5.3.5 자동 계측 296 / 5.3.6 상용 관측 가능성 데모 298
__5.3.7 라이브 디버깅 299 / 5.3.8 배기지 콘텍스트 301
__5.3.9 스팬 속성 301 / 5.3.10 스팬 애너테이션 305
__5.3.11 프롬스케일 쿠버네티스 308 / 5.3.12 프롬스케일 SQL 314
5.4 요약 316
CHAPTER 6 인프라 근본 원인 분석 317
6.1 시스템 추적 319
__6.1.1 KUtrace 321 / 6.1.2 비정상적 근본 원인의 유형 325
__6.1.3 ftrace 336 / 6.1.4 ftrace의 시각화 339 / 6.1.5 시스템 유틸리티 341
6.2 커널 작동 방식과 개발 341
__6.2.1 커널의 주요 개념과 작동 방식 342 / 6.1.2 커널 개발 351
6.3 eBPF 356
__6.3.1 BCC와 bpftrace 357 / 6.3.2 PCP 367
6.4 네트워크 장애 카오스 엔지니어링 데모 373
__6.4.1 카오스 메시 구성 374 / 6.4.2 쿠버네티스 구성 376 / 6.4.3 재전송 분석 377
6.5 eBPF와 실리움 380
__6.5.1 메트릭 381 / 6.5.2 허블 383 / 6.5.3 그라파나 플러그인 386
6.6 실리움과 L7 네트워크 386
__6.6.1 골든 시그널 388 / 6.6.2 문제 감지 388 / 6.6.3 추적 연계 389
6.7 실리움 L7 네트워크 장애 데모 389
__6.7.1 구성 390 / 6.7.2 실리움 배포 391 / 6.7.3 coreapi 배포 394
__6.7.4 외부 서비스의 연계 에러 394 / 6.7.5 coreapi 에러율 증가 394
__6.7.6 추적 전파 395
6.8 실리움 추가 기능 397
__6.8.1 네트워크 정책 397 / 6.8.2 L3 정책 399 / 6.8.3 L7 정책 401
__6.8.4 멀티 클러스터와 서비스 메시 402 / 6.8.5 인그레스 403
6.9 요약 403
CHAPTER 7 인프라 이상 탐지 405
7.1 이상치 406
7.2 SQL 이상 탐지 406
__7.2.1 이상 탐지 방법 407 / 7.2.2 이상치 형태 410
7.3 머신러닝 이상 탐지 411
__7.3.1 오픈서치 데이터셋 413 / 7.3.2 이상 탐지 작업 절차 413
__7.3.3 비율 분석 416 / 7.3.4 카테고리 분석 418 / 7.3.5 모집단 분석 419
__7.3.6 패턴 분석 422 / 7.3.7 버킷 분석 422
7.4 이상 탐지 결과 분석 424
__7.4.1 결과 분석 방법 424 / 7.4.2 결과 분석 API 425
7.5 이상 탐지 구성 430
__7.5.1 오픈서치 이상 탐지 구성 데모 430 / 7.5.2 감지기 고려 사항 434
7.6 요약 435
CHAPTER 8 관측 가능성 데이터 분석 436
8.1 SQL 데이터 분석 438
__8.1.1 시간 윈도 438 / 8.1.2 누적값 계산 439 / 8.1.3 계절성 분석 440
8.2 프롬스케일 441
__8.2.1 프롬스케일 저장 과정 442 / 8.2.2 프롬스케일 메서드 442
8.3 프롬스케일 데모 444
__8.3.1 메트릭 SQL 445 / 8.3.2 메트릭 SQL 데모 446
__8.3.3 추적 SQL 451 / 8.3.4 추적 SQL 데모 452
8.4 요약 459
CHAPTER 9 관측 가능성 데이터 집계 460
9.1 프레스토 사례 461
__9.1.1 하이브 463 / 9.1.2 테이블 준비 463 / 9.1.3 프레스토 특징 464
__9.1.4 프레스토 구성 465
9.2 아파치 드루이드 사례 471
__9.2.1 드루이드 컴포넌트 472 / 9.2.2 성능 개선 476
__9.2.3 드루이드 관측 가능성 483
9.3 요약 491
CHAPTER 10 AIOps 492
10.1 개요 492
10.2 AIOps의 한계 493
__10.2.1 사례 1: 스레드풀 494 / 10.2.2 사례 2: 자바 가상머신 494
__10.2.3 사례 3: 엔진엑스 495
10.3 AIOps의 두 가지 측면 496
__10.3.1 상관관계 비교분석 496 / 10.3.2 근본 원인 분석 질의응답 497
10.4 AIOps 상관관계 497
__10.4.1 메트릭 상관관계 데모 구성 498 / 10.4.2 메트릭 상관관계 데모 실행 500
10.5 IT 운영 데이터 505
__10.5.1 대시보드 507 / 10.5.2 높은 품질의 데이터 508 / 10.5.3 CMDB 509
10.6 장애 목록 데이터 모델 512
__10.6.1 시스템 리소스 장애 514 / 10.6.2 클러스터 장애 514
__10.6.3 서버 프레임워크 장애 515 / 10.6.4 레거시 미들웨어 장애 515
__10.6.5 데이터 파이프라인 장애 519 / 10.6.6 데이터 정합성 장애 519
__10.6.7 관측 가능성 장애 521
__10.6.8 근본 원인 분석 데이터 모델과 장애 목록 데이터 모델 522
10.7 요약 523
CHAPTER 11 RAG와 MCP를 활용한 AIOps 524
11.1 랭체인 525
__11.1.1 LLM 526 / 11.1.2 프롬프트 템플릿 527 / 11.1.3 체인 527
__11.1.4 에이전트 527 / 11.1.5 도구 529 / 11.1.6 메모리 530
11.2 관측 가능성 데이터 검색을 위한 벡터 데이터베이스 530
__11.2.1 시맨틱 검색 531 / 11.2.2 오픈서치 벡터 데이터베이스 532
__11.2.3 랭체인 벡터 데이터베이스 539
11.3 오픈서치 AIOps 540
__11.3.1 오픈서치 RAG 542 / 11.3.2 관측 가능성 RAG 552
__11.3.3 근본 원인 분석 RAG 556
11.4 RAG 고급 기능 563
__11.4.1 리랭킹 563 / 11.4.2 자연어처리 567 / 11.4.3 가드레일 568
__11.4.4 RAG 데이터 관리 570 / 11.4.5 후속 처리 571
11.5 MCP 근본 원인 분석 에이전트 573
__11.5.1 MCP 573 / 11.5.2 에이전트 워크플로 580
__11.5.3 랭그래프 585
11.6 AI 관측 가능성을 위한 OpenLLMetry 596
__11.6.1 워크플로 수동 계측 599
__11.6.2 오픈텔레메트리 Gen AI 601
11.7 요약 602
맺음말 603
찾아보기 606
제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)
| 블로그 유튜브 인스타그램 트위터 페이스북 |
'도서 소개' 카테고리의 다른 글
| 에지 컴퓨팅과 피지컬 AI를 위한 라즈베리파이 5 (0) | 2026.02.24 |
|---|---|
| 대체불가능 (0) | 2026.02.11 |
| 자몽톡과 더덕마켓 클론 코딩으로 배우는 Sass (0) | 2026.02.05 |
| 혼자서도 척척 해내는 AI 에이전트 만들기 with 랭체인 & 랭그래프 (0) | 2026.01.21 |
| 도시 산책 수채화 컬러링 북 (0) | 2026.01.16 |