본문 바로가기

도서 소개

확산 모델의 수학

 

이미지/동영상/음성/텍스트를 생성하는 확산 모델 기술의 수학적 원리

 

확산 모델은 DALL-E2, 미드저니, 스테이블 디퓨전 등 텍스트에 대응하는 이미지를 생성하는 기술의 바탕으로 고품질 데이터를 창출하는 생성 모델로 주목받고 있다. 이 책은 확산 모델의 기본적인 개념부터 그 발전 과정과 응용 사례를 매우 자세히 설명한다. 확산 모델의 원리를 수학적으로 살펴봄으로써 이론을 한층 더 잘 이해하고 확산 모델의 높은 잠재력을 끌어낼 수 있을 것이다.

 

도서구매 사이트(가나다순)

  [교보문고]  [도서11번가]  [알라딘]  [예스이십사]  [인터파크]  [쿠팡

 

출판사 제이펍
저작권사 岩波書店
원서명 拡散モデル データ生成技術の数理 (9784000063432)
도서명 확산 모델의 수학
부제 수학 증명과 알고리즘으로 이해하는 최첨단 데이터 생성 기술
지은이 오카노하라 다이스케
옮긴이 손민규
감수자 (없음)
시리즈 (없음)
출판일 2024. 07. 05
페이지 172쪽
판 형 크라운판변형(170*225*10.6)
제 본 무선(soft cover)
정 가 22,000원
ISBN 979-11-93926-44-4 (93000)
키워드 생성, 생성모델, 확산, 확산모델, diffusion, 디퓨전, ODE, SDE, SBM, DDPM
분 야 인공지능 / 딥러닝 / 수학

 

관련 사이트
아마존 도서 페이지
저작권사 도서 페이지

 

관련 시리즈

■ (없음)

 

관련 포스트

■ 2024.06.20 - [출간 전 책 소식] - 확산 모델 그것이 알고 싶다

 

관련 도서

■ (없음)

 

관련 파일 다운로드

■ (없음)

 

강의 보조 자료(교재로 채택하신 분들은 메일(textbook@jpub.kr)을 보내주시면 다음 자료를 보내드립니다.)
■ 본문의 그림과 표

 

미리보기(옮긴이 머리말, 추천사, 머리말, 기호 일람, 1장 일부)

 

정오표 페이지
https://jpub.tistory.com/468739

 

도서구매 사이트(가나다순)

  [교보문고]  [도서11번가]  [알라딘]  [예스이십사]  [인터파크]  [쿠팡

 

도서 소개

수식과 그림으로 확산 모델 제대로 이해하기

 

DALL-E2, 미드저니, 스테이블 디퓨전 등 텍스트로 이미지를 생성하는 인공지능의 발달이 가져온 충격을 우리 모두 목격했다. 이러한 기술의 바탕에 있는 것이 바로 확산 모델이다. 오늘날의 생성 AI를 이해하려면 고품질 데이터를 생성하는 확산 모델을 이해하는 것이 필수불가결하지만, 관련 자료는 부족한 실정이다.

이 책은 확산 모델의 기본적인 개념부터 그 발전 과정과 응용 사례를 자세히 설명한다. 수식을 더 직관적으로 이해할 수 있도록 여러 그림과 그래프를 함께 제공하며, 학습 안정성, 우도 추정, 조건부 생성 등을 기존 생성 모델과 비교해 살펴봄으로써 확산 모델을 명확히 이해할 수 있다.

이 책이 더욱 특별한 이유는 일본 AI 1위 업체인 Preferred Networks의 최고연구책임자 오카노하라 다이스케가 집필했다는 점이다. ‘기술을 둘러싼 풍부한 맥락을 제공’한다고 평가받는 베테랑 저자이기도 한 오카노하라 다이스케는 이 책으로 32회 오카와 출판상을 수상했다. 오늘날 인공지능의 중심에 있는 확산 모델을 제대로 이해하고자 한다면 이 책이 길잡이가 될 것이다.

 

주요 내용

  • 생성 모델의 개요와 기본 개념
  • SNR과 점수 기반 모델로 이해하는 확산 모델
  • 연속 시간 확산 모델 및 확산 모델의 특장점
  • 분류기 가이던스, 부분공간, 대칭성 등 확산 모델의 발전
  • 동영상, 음성 합성, 화합물 등 확산 모델의 응용 사례

지은이 소개

오카노하라 다이스케(岡野原 大輔)

도쿄 대학 대학원 정보이공학계연구과 컴퓨터과학 전공 정보이공학 박사. 2006년 Preferred Infrastructure를 공동 창업했고, 2014년 Preferred Networks를 공동 창업해 대표이사 겸 최고연구책임자를 맡고 있다. 공저 포함 12권의 AI 도서를 집필했고, 2023년 《확산 모델의 수학》으로 32회 오카와 출판상을 받았다.

 

옮긴이 소개

손민규

일본 규슈 대학에서 인공지능으로 박사 학위를 받은 후 소니 반도체에서 데이터 분석, 알고리즘 및 시스템 개발, 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석, 알고리즘 개발 업무를 하고 있다. 저서로 《데이터 분석을 떠받치는 수학》, 《기초부터 시작하는 강화학습/신경망 알고리즘》이 있으며, 옮긴 책으로는 《가장 쉬운 딥러닝 입문 교실》, 《실전! 딥러닝》, 《파이썬 데이터 분석 실무 테크닉 100》, 《데이터 해석학 입문》 등이 있다.

 

차례

옮긴이 머리말 viii

추천사 ix

머리말 xi

기호 일람 xv

 

CHAPTER 1 생성 모델 1

1.1 생성 모델이란 무엇인가 1

1.2 에너지 기반 모델과 분배함수 4

1.3 학습 방법 6

1.4 고차원에서의 다봉분포 데이터 생성의 어려움 13

1.5 점수: 로그 우도 입력에 대한 기울기 14

__1.5.1 랑주뱅 몬테카를로 방법 16

__1.5.2 점수 매칭 18

__1.5.3 암묵적 점수 매칭 19

__1.5.4 암묵적 점수 매칭이 점수를 추정할 수 있다는 증명 22

__1.5.5 디노이징 점수 매칭 26

__1.5.6 디노이징 점수 매칭이 점수를 추정할 수 있다는 증명 30

__1.5.7 잡음이 정규분포를 따르는 경우의 증명 32

__1.5.8 점수 매칭 방법 정리 37

더보기

요약 37

 

CHAPTER 2 확산 모델 39

2.1 점수 기반 모델과 디노이징 확산확률 모델 39

2.2 점수 기반 모델 40

__2.2.1 추정한 점수를 사용하는 랑주뱅 몬테카를로 방법의 문제점 40

__2.2.2 점수 기반 모델은 여러 개의 교란 후 분포의 점수를 조합한다 42

2.3 디노이징 확산확률 모델 46

__2.3.1 확산 과정과 역확산 과정으로 이루어진 잠재변수 모델 46

__2.3.2 DDPM의 학습 51

__2.3.3 DDPM에서 디노이징 점수 매칭으로 56

__2.3.4 DDPM을 사용한 데이터 생성 61

2.4 SBM과 DDPM의 신호 대 잡음비를 사용한 통일적인 구조 62

__2.4.1 SBM과 DDPM의 관계 62

__2.4.2 연속 시간 모델 70

__2.4.3 잡음 스케줄과 관계없이 같은 해를 얻을 수 있다 71

__2.4.4 학습 가능한 잡음 스케줄 72

요약 73

 

CHAPTER 3 연속 시간 확산 모델 75

3.1 확률미분방정식 76

3.2 SBM과 DDPM의 SDE 표현 77

3.3 SDE 표현의 역확산 과정 80

3.4 SDE 표현 확산 모델 학습 81

3.5 SDE 표현 확산 모델 표본추출 83

3.6 확률 플로 ODE 84

__3.6.1 확률 플로 ODE와 SDE의 주변 우도가 일치한다는 증명 86

__3.6.2 확률 플로 ODE의 우도 계산 88

__3.6.3 신호와 잡음으로 나타내는 확률 플로 ODE 88

3.7 확산 모델의 특징 89

__3.7.1 기존 잠재변수 모델과의 관계 90

__3.7.2 확산 모델은 학습이 안정적이다 91

__3.7.3 복잡한 생성 문제를 간단한 부분 생성 문제로 분해한다 92

__3.7.4 다양한 조건을 조합할 수 있다 93

__3.7.5 생성의 대칭성을 자연스럽게 도입할 수 있다 94

__3.7.6 표본을 추출할 때 스텝 수가 많아 생성 속도가 느리다 95

__3.7.7 확산 모델로 어떻게 일반화할 수 있는지에 대한 이해가 미해결 95

요약 96

 

CHAPTER 4 확산 모델의 발전 97

4.1 조건부 생성에서의 점수 97

4.2 분류기 가이던스 98

4.3 분류기를 사용하지 않는 가이던스 99

4.4 부분공간 확산 모델 102

__4.4.1 부분공간 확산 모델의 학습 104

__4.4.2 부분공간 확산 모델의 표본추출 106

4.5 대칭성을 고려한 확산 모델 107

__4.5.1 기하와 대칭성 107

__4.5.2 화합물의 회전배열 110

요약 117

 

CHAPTER 5 응용 119

5.1 이미지 생성, 초해상, 보완, 이미지 변환 120

5.2 동영상 및 파노라마 생성 121

5.3 의미 추출과 변환 122

5.4 음성의 합성과 강조 123

5.5 화합물의 생성과 회전배열 124

5.6 적대적 섭동에 대한 강건성 향상 125

5.7 데이터 압축 126

요약 127

 

APPENDIX A 부록 129

A.1 사전분포가 정규분포, 우도가 선형정규분포인 경우의 사후확률분포 129

A.2 ELBO 130

A.3 신호와 잡음을 이용한 확률 플로 ODE 도출 131

A.4 조건부 생성 문제 135

A.5 디노이징 암묵적 확산 모델 137

A.6 역확산 과정의 확률미분방정식 증명 141

A.7 비가우스 잡음에 의한 확산 모델 146

A.8 Analog Bits: 이산 변수 확산 모델 147

 

참고 문헌 149

찾아보기 154

 

 

제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)

  포스트  유튜브  인스타그램  트위터  페이스북