14  Normal Dağılım

İstatistiğin yıldızı: Gauss integrali, Φ, CLT habercisi

NotBölüm bilgisi

14.1 Bu Derste Ne Var?

  1. Probability integral transform: \(X \sim F \Rightarrow F(X) \sim \text{Uniform}(0, 1)\).
  2. Uniform dönüşümleri: \(1 - U, a + bU\) Uniform kalır; doğrusal-olmayan (örn. \(U^2\)) bozar.
  3. RV bağımsızlığı: joint = marjinallerin çarpımı. İkili ≠ tam.
  4. Standart Normal N(0,1): PDF, Gauss integrali (\(\sqrt{2\pi}\)), \(E = 0\), Var \(= 1\), \(\Phi\).

“from the uniform you can get everything.” — Blitzstein, 4:38

İpucuBuilder Notu — ML Köprüleri
  • \(F(X) \sim\) Uniform → model kalibrasyon kontrolü, QQ-plot, copula.
  • Bağımsızlık = faktörizasyon → PGM, naive Bayes.
  • İkili ≠ tam bağımsızlık → XOR-tipi gizli yapı; korelasyon matrisine güvenme.
  • Normal + CLT → Gaussian her yerde: ağırlık init, VAE prior N(0, I), diffusion taban, batch norm.
  • Φ → GELU: GELU\((x) = x \cdot \Phi(x)\), transformer aktivasyonu.
  • Gauss normalleştirmepartition function; softmax, enerji-tabanlı modeller.

14.2 Probability Integral Transform

Uniform’un evrenselliğinin ters yönü:

\[ X \sim F \;\Longrightarrow\; F(X) \sim \text{Uniform}(0, 1) \]

Notasyon tuzağı: \(F(X) \ne P(X \le X) = 1\). Önce \(F\)’i fonksiyon olarak yaz, sonra \(X\) koy. Örn. \(F(x) = 1 - e^{-x}\) ise \(F(X) = 1 - e^{-X}\).

İpucuBuilder Notu — Kalibrasyon

Probability integral transform model testinin temeli: \(X\)’in karmaşık dağılımı varsa, \(F(X)\)’leri hesapla, Uniform görünüp görünmediğini kontrol et. ML’de kalibrasyon eğrileri, QQ-plot, copula’lar bu fikre dayanır.

14.3 Uniform Simetrileri ve Doğrusal-Olmayan Tuzak

  • \(1 - U \sim \text{Uniform}(0, 1)\) (simetri).
  • \(a + bU \sim \text{Uniform}(a, a+b)\) (doğrusal).
  • \(U^2\) Uniform DEĞİL: \(P(U^2 \le y) = P(U \le \sqrt{y}) = \sqrt{y} \ne y\).

“Nonlinear usually leads to nonuniform.” — Blitzstein, 14:51

İpucuBuilder Notu — Change of Variables

Normalizing flows: basit tabandan, doğrusal-olmayan tersinir dönüşümlerle karmaşık yoğunluklar. Jacobian ile yoğunluk yeniden şekillenir.

14.4 RV Bağımsızlığı: İkili ≠ Tam

\(X_1, \ldots, X_n\) bağımsız ⇔ joint = marjinallerin çarpımı:

\[ P(X_1 \le x_1, \ldots, X_n \le x_n) = \prod_i P(X_i \le x_i) \]

Matching pennies: \(X_1, X_2 \sim\) Bern(1/2) IID, \(X_3 = \mathbb{1}\{X_1 = X_2\}\). İkili bağımsız (\(X_1, X_3\) kontrol et: \(P = 1/4 = 1/2 \cdot 1/2\)) ama tam bağımsız değil (\(X_1, X_2\) bilinince \(X_3\) belli).

ÖnemliBuilder Notu — Korelasyon Matrisine Güvenme

İkili korelasyonsuzluk tam bağımsızlığı garanti etmez — XOR-tipi yapı ikili testlerden kaçar. Sadece korelasyon matrisine bakıp “bağımsız” demek yanlış model varsayımıdır.

14.5 Standart Normal N(0,1): PDF ve Gauss İntegrali

\[ f(z) = c\, e^{-z^2/2} \]

Normalleştirme sabiti \(c\) için ünlü Gauss integrali:

\[ I = \int_{-\infty}^{\infty} e^{-z^2/2}\,dz \]

Numara: Kareyi al + kutupsal koordinat. \(I^2 = \iint e^{-(x^2+y^2)/2} dx\,dy\). Polar: \(r^2 = x^2 + y^2\), Jacobian \(r\):

\[ I^2 = \int_0^{2\pi}\int_0^{\infty} e^{-r^2/2}\,r\,dr\,d\theta = \int_0^{2\pi} 1\, d\theta = 2\pi \]

Demek \(I = \sqrt{2\pi}\), \(c = 1/\sqrt{2\pi}\).

\[ \boxed{f(z) = \frac{1}{\sqrt{2\pi}}\, e^{-z^2/2}} \]

“where did the pi come from? Where did the circle come?” — Blitzstein, 40:21

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

z = np.linspace(-4, 4, 400)
pdf = stats.norm.pdf(z)
cdf = stats.norm.cdf(z)

fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))

# PDF + 68-95-99.7
ax = axes[0]
ax.plot(z, pdf, color='#A51C30', linewidth=2.5)
for k, alpha, etiket in [(1, 0.5, '%68'), (2, 0.3, '%95'), (3, 0.15, '%99,7')]:
    mask = (z >= -k) & (z <= k)
    ax.fill_between(z[mask], 0, pdf[mask], color='#DD6B20', alpha=alpha)
    ax.text(0, 0.04 + 0.05*(3-k), etiket, ha='center', fontsize=11, weight='bold', color='#6B0E1B')
ax.set_xlabel('z', fontsize=12)
ax.set_ylabel('φ(z)', fontsize=12)
ax.set_title('Standart Normal PDF — 68-95-99,7', fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_xlim(-4, 4)

# CDF Φ
ax = axes[1]
ax.plot(z, cdf, color='#2C5282', linewidth=2.5)
ax.axhline(0.5, color='#6B7280', linestyle=':')
ax.axvline(0, color='#6B7280', linestyle=':')
ax.text(0.2, 0.52, 'Φ(0) = 0,5', fontsize=10, color='#1f2937')
for z_v in [-1.96, 1.96]:
    ax.axvline(z_v, color='#DD6B20', linestyle='--', alpha=0.7)
ax.text(2.1, 0.95, 'Φ(1,96) = 0,975', fontsize=10, color='#6B0E1B')
ax.set_xlabel('z', fontsize=12)
ax.set_ylabel('Φ(z) = P(Z ≤ z)', fontsize=12)
ax.set_title('Standart Normal CDF Φ — kapalı form yok', fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_xlim(-4, 4)
ax.set_ylim(-0.05, 1.05)

plt.tight_layout()
plt.show()
Şekil 14.1

14.6 E(Z) = 0, Var(Z) = 1

Ortalama: \(z \cdot e^{-z^2/2}\) tek fonksiyon, simetrik aralıkta integral \(= 0\):

\[ E(Z) = 0 \]

Varyans: \(E(Z^2)\) için LOTUS + parçalı integrasyon (\(u = z, dv = z e^{-z^2/2} dz\)):

\[ E(Z^2) = \frac{1}{\sqrt{2\pi}} \int z^2 e^{-z^2/2} dz = 1 \]

\[ \text{Var}(Z) = 1 \]

14.7 Φ Notasyonu

Standart Normal CDF’in kapalı formu yoktur — adı \(\Phi\):

\[ \Phi(z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z} e^{-t^2/2}\,dt \]

Simetri: \(\Phi(-z) = 1 - \Phi(z)\).

ÖnemliBuilder Notu — GELU ve Probit

Φ ML’de doğrudan: GELU aktivasyonu = \(x \cdot \Phi(x)\) (transformer’larda yaygın). Probit regresyon bağlantı fonksiyonu olarak Φ kullanır (sigmoid’in Normal karşılığı). Φ ile erf birbirinin yeniden ölçeklenmiş hâli.

14.8 Bu Dersin Özeti

  1. PIT: \(F(X) \sim\) Uniform; notasyon tuzağı.
  2. Uniform: \(1-U, a+bU\) Uniform kalır; \(U^2\) değil.
  3. Bağımsızlık: joint = \(\prod\) marjinal; ikili ≠ tam.
  4. Normal + CLT: iid toplam → Normal.
  5. N(0,1): \(f = e^{-z^2/2}/\sqrt{2\pi}\); Gauss integrali polar + kareyi al → \(\sqrt{2\pi}\).
  6. E(Z) = 0 (simetri), Var(Z) = 1 (LOTUS + parçalı).
  7. Φ: kapalı formsuz; \(\Phi(-z) = 1 - \Phi(z)\).
ÖnemliTek bir cümle

Uniform’un evrenselliği bir dağılımı kendi uniform’una bağlayan iki yönlü köprüdür (örnekleme + kalibrasyon). Standart Normal \(N(0, 1)\)’in PDF’i \((1/\sqrt{2\pi}) e^{-z^2/2}\) — normalleştirme sabiti Gauss integralinden çembersel numarayla \(\sqrt{2\pi}\) doğar; \(E = 0\), Var \(= 1\), CDF = \(\Phi\). GELU’dan VAE’ye, diffusion’a, batch norm’a kadar uzanan dağılım.

14.9 Kontrol Soruları

Cevap: \(F^{-1}(u) = \sqrt{u}\). \(X = \sqrt{U}\).

Cevap: PIT: \(Y = F(X) \sim\) Uniform(0, 1).

Cevap: \(P(X_1 = 1, X_3 = 1) = P(X_1 = 1, X_2 = 1) = 1/4 = (1/2)(1/2)\) ✓. Ama \(P(X_1=1, X_2=1, X_3=0) = 0 \ne 1/8\) → tam bağımsız değil.

Cevap: Φ kapalı formsuz → \(\Phi^{-1}\) analitik yazılamaz. Box-Muller: iki Uniform’dan iki bağımsız Normal: \(Z_1 = \sqrt{-2 \ln U_1} \cos(2\pi U_2)\), \(Z_2 = \sin(\ldots)\). Polar yapı (Gauss integralindeki!) Normal örneklemeyi kapalı formda mümkün kılar.

14.10 Egzersizler

Egzersiz 1. Lojistik \(F(x) = 1/(1+e^{-x})\). (a) \(F^{-1}\)? (b) U’dan örnek formülü.

Egzersiz 2. PIT iki yön: (a) \(F(X) \sim\) Uniform. (b) \(1 - F(X) \sim\) Uniform. (c) Model kontrolünde nasıl?

Egzersiz 3. \(Z \sim N(0,1)\). (a) \(E(Z^3)\)? (b) \(E(Z^4) = 3\)? (c) Tek momentler neden \(0\)?

Egzersiz 4. (Python — Gauss integrali + Box-Muller)

import numpy as np
from scipy import integrate, stats

val, _ = integrate.quad(lambda z: np.exp(-z**2 / 2), -np.inf, np.inf)
print(f"Gauss integrali: {val:.4f}   sqrt(2π) = {np.sqrt(2*np.pi):.4f}")

# Box-Muller
rng = np.random.default_rng(0)
U1 = rng.uniform(size=500_000)
U2 = rng.uniform(size=500_000)
Z1 = np.sqrt(-2*np.log(U1)) * np.cos(2*np.pi*U2)
print(f"Box-Muller mean: {Z1.mean():.4f}  var: {Z1.var():.4f}")
print(f"KS p-değeri: {stats.kstest(Z1, 'norm').pvalue:.3f}")

Egzersiz 5. (Sonraki ders) \(X = \mu + \sigma Z\). (a) \(E(X)\), Var(\(X\))? (b) Change of variables ile PDF. (c) CDF Φ cinsinden.

14.11 Sonraki Ders İçin Hazırlık

Ders 14: Konum, Ölçek ve LOTUS\(X = \mu + \sigma Z\), 68-95-99,7, batch norm matematiği.

UyarıDers 14 öncesi yapılacak
  • Egzersizleri çöz, özellikle 5 (\(\mu + \sigma Z\)).
  • Python’da \(\sigma\) küçüldükçe \(\varphi(0) > 1\) olduğunu (yoğunluk) gör.
  • Ana cümleyi tekrar oku.

14.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Blitzstein’de
PIT iki yön \(X = F^{-1}(U)\); \(F(X) \sim\) Unif 2m09
Notasyon tuzağı \(F(X) \ne P(X \le X) = 1\) 7m29
\(1 - U\) simetrisi \(-\ln(U) \sim\) Exp(1) 13m17
Doğrusal-olmayan \(U^2\) Uniform değil 14m36
RV bağımsızlığı joint = \(\prod\) marjinal 16m00
İkili ≠ tam Matching pennies 20m16
Normal + CLT iid toplam → Normal 25m42
N(0,1) PDF \(e^{-z^2/2}/\sqrt{2\pi}\) 27m20
Gauss integrali \(\sqrt{2\pi}\); polar + kare 33m19
E, Var \(0\), \(1\) 41m16
Φ Kapalı formsuz; \(\Phi(-z) = 1 - \Phi(z)\) 49m42

14.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. PIT → örnekleme + kalibrasyon, QQ-plot, copula.
  2. Bağımsızlık = faktörizasyon → PGM, naive Bayes.
  3. İkili ≠ tam → XOR-tipi gizli yapı; korelasyon ≠ bağımsızlık.
  4. Normal + CLT → Gaussian her yerde: VAE prior, diffusion, ağırlık init.
  5. Gauss normalleştirmepartition function; softmax, EBM.
  6. ΦGELU, probit, erf.
  7. Box-Muller → polar numara yeniden kullanımı.
ÖnemliTek bir şey alıp gideceksen

Uniform’un evrenselliği iki yönlü köprü (örnekleme + kalibrasyon). \(N(0, 1)\)’in \(\sqrt{2\pi}\)’si çembersel numarayla doğar; \(\Phi\) kapalı formsuz ama her yerde. GELU’dan diffusion’a, batch norm’a kadar uzanan dağılım.