[SDE] 2.1 확률론의 기초 언어 (Part 2): 확률 과정과 Kolmogorov Extension Theorem
Stochastic Process의 정의와 존재성, Kolmogorov Extension Theorem
시작에 앞서..
이 포스팅 시리즈는 Diffusion을 공부하다 SDE를 공부해야한다는 생각으로 혼자 책을 읽으며 정리한 글입니다. Bernt Øksendal 교수님의 책 “Stochastic Differential Equations: An Introduction with Applications1“을 참고하여 작성하였습니다.
Part 1에서는 시간이 멈춰있는 세상에서의 확률 공간 $(\Omega, \mathcal{F}, P)$와 확률 변수 $X$에 대해 다뤘다.
하지만 우리가 SDE(확률 미분 방정식)를 통해 분석하고 싶은 것은 주가, 입자의 위치, 노이즈 등 시간이 흐름에 따라 불확실하게 변하는 대상들이다. 이제 우리에게는 시간(Time, $t$)이라는 새로운 차원이 필요하다.
이번 포스팅에서는 다음 질문들에 답한다.
- 확률 과정(Stochastic Process)이란 수학적으로 무엇인가?
- 확률 과정을 바라보는 두 가지 관점은 무엇인가?
- 우리가 상상하는 확률 과정이 수학적으로 존재함을 어떻게 보장받을 수 있는가? (Kolmogorov’s Extension Theorem)
1. 확률 과정 (Stochastic Process)의 정의와 해석
확률 과정의 정의 자체는 의외로 간단하다. 단순히 확률 변수들을 시간 순서대로 모아놓은 것이다.
Definition 2.1.4 (Stochastic Process)
확률 과정(Stochastic process)이란 확률 공간 $(\Omega, \mathcal{F}, P)$ 위에서 정의되고 $\mathbb{R}^n$에 값을 가지는 확률 변수들의 매개변수화된 집합(parametrized collection)이다.
\[\{ X_t \}_{t \in T}\]
여기서 파라미터 공간 $T$는 보통 ‘시간’을 의미하며, $[0, \infty)$ (연속 시간)인 경우가 많지만, 정수 집합(이산 시간)이나 구간 $[a, b]$일 수도 있다.
아주 단순한 동전 던지기 게임을 생각해보자.
- 규칙: 매초마다 동전을 던진다. 앞면(H)이면 $+1$칸, 뒷면(T)이면 $-1$칸 이동한다.
- $X_t$: $t$초 후의 내 위치.
- $\Omega$: 가능한 모든 시나리오의 집합 (예: ${HHH, HHT, HTH, \dots }$)
이 단순한 상황을 아래의 두 가지 관점으로 쪼개서 보면, 확률 과정의 본질이 명확해진다.
1.1 두 가지 관점: 횡적(Cross-sectional) vs 종적(Longitudinal)
확률 과정 $X_t(\omega)$는 변수가 두 개($t$와 $\omega$)인 함수로 볼 수 있다. 어떤 변수를 고정하느냐에 따라 이를 바라보는 관점이 완전히 달라지는데, 이 두 관점을 자유자재로 오가는 것이 매우 중요하다.
관점 1: 확률 변수의 모임 (Random Variables) - “세로로 자르기”
- 고정: 시간 $t$를 고정한다. (예: $t = 3$초)
- 해석: 특정 시점의 단면(Snapshot)을 본다. \(\omega \mapsto X_t(\omega)\)
- 예시 적용: “$t=3$일 때 내 위치는 어디인가?”
- 아직 동전을 던지기 전이라면, 위치는 확률적으로만 알 수 있다. (3, 1, -1, -3 중 하나)
- 즉, $X_3$는 그 자체로 하나의 확률 변수이며, 우리는 $X_3$의 평균(기댓값)이나 분산을 계산할 수 있다.
관점 2: 경로 또는 궤적 (Sample Paths) - “가로로 따라가기”
- 고정: 근원 사건 $\omega$를 고정한다. (예: 이미 게임이 끝났고, 결과가 ‘H-H-T’로 확정됨)
- 해석: 시간의 흐름에 따른 변화를 본다. \(t \mapsto X_t(\omega)\)
- 예시 적용: “이번 판(H-H-T)의 내 이동 경로는?”
- $t=1$: +1
- $t=2$: +2 (+1+1)
- $t=3$: +1 (+1+1-1)
- 이때 $X_t(\text{HHT})$는 더 이상 확률이 아니다. 시간에 따라 변하는 하나의 함수(그래프)가 된다. 이를 경로(Path) 또는 궤적(Trajectory)이라고 부른다.
요약하자면:
- $t$를 고정하면: 확률 분포 (Distribution)
- $\omega$를 고정하면: 시간 함수 (Time Function)
1.2 이변수 함수로서의 관점
때로는 $X_t(\omega)$ 대신 $X(t, \omega)$라고 표기하기도 한다. 즉, $T \times \Omega$에서 $\mathbb{R}^n$으로 가는 함수로 보는 것이다.
\[(t, \omega) \mapsto X(t, \omega)\]이 관점은 확률 해석(Stochastic Analysis)에서 매우 중요하다. 나중에 우리가 적분을 하거나 미분을 할 때, $X(t, \omega)$가 $(t, \omega)$에 대해 Jointly Measurable 해야 한다는 조건이 필요하기 때문이다. (쉽게 말해, 시간과 사건을 통째로 묶어서 봐도 수학적으로 잘 정의되어야 한다는 뜻이다.)
2. 확률 과정의 공간과 유한 차원 분포
이제 우리의 상상력을 조금 더 확장해야 한다. 1절에서 우리는 $\omega$ 하나가 정해지면 하나의 ‘경로(시간 함수)’가 결정된다고 했다.
그렇다면, 확률 공간 $\Omega$는 도대체 무엇으로 채워져 있는 걸까?
- 예전(기초 통계): $\Omega$는 ‘숫자’나 ‘공’으로 채워져 있었다.
- 지금(확률 과정): $\Omega$는 무수히 많은 ‘함수(그래프)’들로 채워져 있다.
2.1 함수 공간 (Function Space)
수학적으로 이를 표현하기 위해 우리는 $\tilde{\Omega} = (\mathbb{R}^n)^T$ 라는 공간을 도입한다. 기호가 무섭게 생겼지만, 뜻은 단순하다.
“시간 $T$ 동안 그려질 수 있는 모든 가능한 그래프들의 모임”
즉, 우리는 확률 과정을 ‘함수 공간(Function Space) 위에서 뽑기’를 하는 것으로 바라볼 수 있다. 주머니에 손을 넣어서 공을 꺼내는 게 아니라, 그래프를 하나 통째로 꺼내는 것이다.
2.2 유한 차원 분포: 무한을 다루는 방법 (CCTV 전략)
그런데 문제가 있다. ‘함수’는 무한히 많은 점($t$)으로 이루어져 있어서, 이 거대한 함수 공간 전체를 한 번에 다루거나 확률을 정의하는 건 수학적으로 악몽과 같다. (무한 차원이라서 적분이 어렵다.)
그래서 수학자들은 “전체를 다 볼 수 없다면, 중요한 몇 지점만 찍어서 보자!”라는 전략을 세웠다. 마치 건물 전체를 다 감시할 수 없어서, 중요한 길목에 CCTV를 설치하는 것과 같다.
유한 차원 분포(Finite-dimensional distributions)란, 우리가 선택한 특정 시간들($t_1, t_2, \dots, t_k$)에서의 ‘스냅샷’ 확률 분포를 말한다.
\[\mu_{t_1, \dots, t_k} \left( F_1 \times F_2 \times \cdots \times F_k \right) = P(X_{t_1} \in F_1, \ \dots, \ X_{t_k} \in F_k)\]- 좌변: CCTV $k$대가 찍은 장면들의 확률 분포
- 우변: 실제 확률 과정이 해당 시간($t_i$)에 해당 위치($F_i$)를 지나갈 확률
예를 들어보자. 어떤 주식의 가격 움직임($X_t$)을 분석한다고 하자. 1년 365일 매분 매초의 가격을 확률적으로 다 모델링하기는 힘들다. 대신 우리는 몇 개의 체크포인트(CCTV)를 찍는다.
- $t_1$ (1개월 후): 주가가 10% 이상 오를 확률은?
- $t_2$ (6개월 후): 주가가 폭락하지 않을 확률은?
이때 $(X_{t_1}, X_{t_2})$의 결합 확률 분포(Joint Distribution)를 안다면, 우리는 전체 경로를 다 모르더라도 “대략 이 주식은 초반에 오르다가 나중에 안정화되는 성질이 있구나”라고 파악할 수 있다.
핵심 아이디어:
비록 확률 과정 자체는 무한 차원의 괴물이지만, 우리는 유한한 개수의 시간($t_1, \dots, t_k$)만 잘 잡아서 관찰하면(유한 차원 분포), 그 확률 과정의 성질을 대부분 파악할 수 있다.
3. Kolmogorov의 확장 정리 (Kolmogorov’s Extension Theorem)
이 부분이 이번 챕터의 하이라이트이자, 가장 난해할 수 있는 부분이다.(나한텐 그랬다..)
우리는 보통 모델링을 할 때 “희망 사항(Speculation)”을 먼저 적는다. “나는 내 입자가 매 순간 정규분포를 따랐으면 좋겠어. 그리고 어제 움직인 거랑 오늘 움직인 건 서로 독립이었으면 좋겠어.”
이렇게 유한한 시점들($t_1, \dots, t_k$)에서의 규칙, 즉 유한 차원 분포는 우리가 마음대로 정할 수 있다. 하지만 여기서 근본적인 질문이 생긴다.
“네가 상상한 그 규칙들을 무한히($t \in [0, \infty)$) 이어 붙여도 모순이 안 생길까? 그런 확률 과정이 수학적으로 진짜 존재해?”
이때 등장하는 구세주가 바로 Kolmogorov’s Extension Theorem이다. 이 정리는 우리가 가져온 설계도(유한 차원 분포)가 ‘최소한의 상식(일관성)’만 지키고 있다면, 그런 확률 과정이 실제로 존재함을 보장해 준다.
3.1 정리의 내용
정리에 들어가기 앞서, 기호를 먼저 정리하자.
- $\nu_{t_1, \dots, t_k}$ : 우리가 $t_1, \dots, t_k$ 시점에서 “이랬으면 좋겠다”고 정의한 확률 분포(설계도)이다.
- 예를 들어, $\nu_{t_1}$은 $t_1$ 시점의 정규분포, $\nu_{t_1, t_2}$는 두 시점의 결합 분포를 의미한다.
이 설계도들의 모임(Family)이 다음 두 가지 조건을 만족하면 합격이다.
Theorem 2.1.5 (Kolmogorov’s extension theorem)
임의의 시점 $t_1, \dots, t_k \in T$와 $k \in \mathbb{N}$에 대해 정의된 측도군 $\nu$가 다음 두 조건을 만족한다고 하자.
순열 불변성 (Permutation Invariance): 질문의 순서를 바꿔도 확률값은 같아야 한다.
\[\nu_{t_{\sigma(1)}, \dots, t_{\sigma(k)}} (F_1 \times \cdots \times F_k) = \nu_{t_1, \dots, t_k} (F_{\sigma^{-1}(1)} \times \cdots \times F_{\sigma^{-1}(k)}) \tag{K1}\]사영 일관성 (Consistency): 관측 시점을 추가했다가 다시 무시하면(전체 공간에 대해 적분하면), 원래 확률과 같아야 한다.
\[\nu_{t_1, \dots, t_k} (F_1 \times \cdots \times F_k) = \nu_{t_1, \dots, t_k, t_{k+1}, \dots, t_{k+m}} (F_1 \times \cdots \times F_k \times \underbrace{\mathbb{R}^n \times \cdots \times \mathbb{R}^n}_{m\text{개}}) \tag{K2}\]그러면, $\nu_{t_1, \dots, t_k}$를 유한 차원 분포로 가지는 확률 공간 $(\Omega, \mathcal{F}, P)$와 확률 과정 ${ X_t }$가 존재한다.
3.2 수식 뜯어보기
수식이 복잡해 보이지만, $k=2$인 간단한 상황을 대입하면 아주 당연한 이야기임을 알 수 있다.
1. 순열 불변성 (Permutation Invariance)
수식의 $\sigma$는 순서를 섞는다는 뜻이다. $t_1$(어제)과 $t_2$(오늘) 두 시점만 있다고 해보자.
- 좌변: $\nu_{t_2, t_1}(F_2 \times F_1)$ $\rightarrow$ “오늘($t_2$) 주가가 $F_2$이고, 어제($t_1$) 주가가 $F_1$일 확률”
- 우변: $\nu_{t_1, t_2}(F_1 \times F_2)$ $\rightarrow$ “어제($t_1$) 주가가 $F_1$이고, 오늘($t_2$) 주가가 $F_2$일 확률”
순서를 “오늘 먼저, 어제 나중”으로 묻든, “어제 먼저, 오늘 나중”으로 묻든, 사건($F_1 \cap F_2$)이 일어날 확률은 당연히 같아야 한다. 1번 조건은 단지 이 상식을 수학적으로 적어둔 것이다.
2. 사영 일관성 (Consistency)
이 조건이 훨씬 중요하다. 수식의 $\mathbb{R}^n$은 “전체 범위(Anything)”를 의미한다. $t_1$(내일)만 예측할 때와, $t_2$(모레)까지 같이 예측할 때를 비교해 보자.
- 좌변: $\nu_{t_1}(F_1)$ $\rightarrow$ 내일 주가가 $F_1$일 확률 (단순 예측)
- 우변: $\nu_{t_1, t_2}(F_1 \times \mathbb{R}^n)$ $\rightarrow$ 내일 주가는 $F_1$이고, 모레 주가는 뭐든 상관없을($\mathbb{R}^n$) 확률 (상세 예측에서 모레를 무시함)
이 수식은 “상세한 모델(우변)에서 불필요한 정보($t_2$)를 적분해서 없애버리면(Marginalize), 단순한 모델(좌변)과 결과가 똑같아야 한다”는 뜻이다. 만약 다르다면, 그것은 모델이 ‘말을 바꿨다(모순)’는 뜻이 된다.
3.3 조건의 직관적 해석 (Example)
이제 이 수식들이 현실에서 어떤 의미인지 구체적인 예시로 확인해 보자.
예시: 날씨 예측 모델의 검증
상황: 내일($t_1$) 비가 올 확률을 예측한다.
- 모델 1 (단순 예측): 내일 비가 올 확률은 40%라고 했다.
- 모델 2 (상세 예측): 모레($t_2$) 날씨까지 포함해서 확률을 다시 계산했다.
- (내일 비, 모레 비) = 10%
- (내일 비, 모레 맑음) = 20%
- (내일 맑음, …) = 나머지
이제 사영 일관성(2번 조건)을 체크해 보자. 모델 2에서 ‘모레 날씨’를 지우고(모든 경우를 더하고), ‘내일 비’만 남겨보자.
\[\nu_{t_1, t_2}(\text{Rain} \times \mathbb{R}) = 0.1 + 0.2 = \mathbf{0.3}\]처음(모델 1)에는 40%라고 해놓고, 상세하게 까보니(모델 2) 합쳐서 30%라고 말이 바뀌었다.
\[\nu_{t_1} \neq \nu_{t_1, t_2}(\cdot \times \mathbb{R})\]이러면 일관성이 깨진 것이다. 이런 확률 과정은 수학적으로 존재할 수 없다. 합친 값이 정확히 0.4가 나와야만 이 모델은 합격이다.
우리는 앞으로 브라운 운동(Brownian Motion)을 정의할 때, $\Omega$나 함수 공간 전체를 정의하는 게 아니라, “이동 거리($X_t - X_s$)가 정규분포를 따른다”는 부분적인 규칙(유한 차원 분포)만 정의할 것이다.
Kolmogorov 확장 정리는 “그 부분적인 규칙들이 서로 모순만 없다면(일관성), 전체 시간을 아우르는 브라운 운동이라는 것이 진짜로 존재한다고 인정해 줄게!”라는 허가증과 같다.
이 허가증 덕분에 우리는 “그런 게 있다고 치자…“라고 얼버무리지 않고, 당당하게 “브라운 운동은 수학적으로 잘 정의된다”고 말하고 시작할 수 있는 것이다.
Reference
Bernt Øksendal, Stochastic Differential Equations, Springer, 2003. DOI: 10.1007/978-3-642-14394-6. ↩︎