import numpy as np
rng = np.random.default_rng(0)
# Multinomial marjinali: X_1 ~ Bin(100, 0.5)?
draws = rng.multinomial(100, [0.5, 0.3, 0.2], size=100_000)
print(f"X_1 mean={draws[:,0].mean():.2f} (teori 50), var={draws[:,0].var():.2f} (teori 25)")
# Cauchy: ortalama vs medyan
C = rng.standard_normal(100_000) / rng.standard_normal(100_000)
print(f"Cauchy 'ortalama' (kararsız): {C.mean():.3f}")
print(f"Cauchy medyan (kararlı): {np.median(C):.3f}")21 Multinomial ve Cauchy
Softmax dağılımı + ağır kuyrukların habercisi
- Blitzstein’in videosu: YouTube — Lecture 20: Multinomial and Cauchy (≈49 dk)
- Okuma süresi: ≈35 dk
21.1 Bu Derste Ne Var?
- Yapıyı kullan: \(Z_1 - Z_2 \sim N(0, 2)\) → \(E|Z_1 - Z_2| = 2/\sqrt{\pi}\) (2D LOTUS değil).
- Multinomial: binomun k kategoriye genellemesi.
- Lumping + koşullu: birleştir → yine Mult; yeniden normalleştir.
- Cauchy = X/Y: ortalama/varyans YOK; LLN başarısız.
- Yapıyı tanı → reparameterization, kapalı form KL.
- Multinomial → softmax + cross-entropy, topic modelleri (LDA), sayma.
- Koşullu yeniden-normalleştirme (\(p_j/(1-p_1)\)) = masked softmax (attention’da maskelenen tokenlardan sonra).
- Cauchy ağır kuyruk → robust istatistik (medyan), Student-t, finansal getiriler.
21.2 Bağımsız Normal Toplamı = Normal (MGF İspatı)
\(X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)\) bağımsız:
\[ M_{X+Y}(t) = e^{\mu_1 t + \sigma_1^2 t^2/2} \cdot e^{\mu_2 t + \sigma_2^2 t^2/2} = e^{(\mu_1+\mu_2) t + (\sigma_1^2+\sigma_2^2) t^2/2} \]
→ \(X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\).
21.3 İki Normal Uzaklık (Yapıyı Kullan)
\(Z_1 - Z_2 \sim N(0, 2) = \sqrt{2} \cdot Z\). Tek boyutlu LOTUS:
\[ E|Z| = \sqrt{2/\pi} \;\Rightarrow\; E|Z_1 - Z_2| = \sqrt{2} \cdot \sqrt{2/\pi} = \frac{2}{\sqrt{\pi}} \]
“it’s better to stop and think about the structure of the problem” — Blitzstein, 1:36
21.4 Multinomial Dağılım
\(\vec{X} = (X_1, \ldots, X_k) \sim \text{Mult}(n, \vec{p})\), \(\sum p_j = 1\).
\[ P(X_1 = n_1, \ldots, X_k = n_k) = \frac{n!}{n_1! n_2! \cdots n_k!}\, p_1^{n_1} \cdots p_k^{n_k} \]
Multinomial çok-sınıflı sınıflandırmanın doğal dağılımı: softmax bir olasılık vektörü üretir, gözlemler Multinomial. Cross-entropy kaybı = Multinomial log-likelihood’unun negatifi. LDA topic modelleri, dil modelleri.
21.5 Marjinal (Binom) ve Lumping
Marjinal (hikâyeden):
\[ X_j \sim \text{Bin}(n, p_j), \quad E(X_j) = n p_j, \quad \text{Var}(X_j) = n p_j (1 - p_j) \]
Lumping: Kategorileri birleştir → yine Multinomial (olasılıklar toplanır).
21.6 Multinomial Koşullu
\((X_2, \ldots, X_k) \mid X_1 = n_1 \sim \text{Mult}(n - n_1, (p_j'))\), burada:
\[ p_j' = \frac{p_j}{1 - p_1} \]
\(p_j/(1 - p_1)\) yeniden-normalleştirmesi tam olarak masked softmax: attention’da bazı tokenları maskeleyince (0’a çekince), kalanların olasılıkları \((1 - \text{maskelenenin payı})\)’na bölünür. Kısıtlı üretim, causal attention.
21.7 Cauchy Dağılımı
\(T = X/Y\), \(X, Y \sim N(0, 1)\) bağımsız.
PDF türetimi (Leibniz, integral işareti altında türev):
\[ f(t) = \frac{1}{\pi(1 + t^2)}, \quad t \in \mathbb{R} \]
Tuhaf özellikler:
- Ortalama YOK (\(\int t/(\pi(1+t^2)) dt\) ıraksar).
- Varyans YOK.
- iid Cauchy ortalaması yine Cauchy — LLN başarısız!
“You can average a million IID Cauchy it’s still gonna be Cauchy.” — Blitzstein, 32:24
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
N = 5000
# Cauchy
X = rng.standard_normal(N); Y = rng.standard_normal(N)
C = X / Y
run_mean_C = np.cumsum(C) / np.arange(1, N+1)
# Normal
Z = rng.standard_normal(N)
run_mean_Z = np.cumsum(Z) / np.arange(1, N+1)
fig, ax = plt.subplots(figsize=(11, 5))
ax.plot(run_mean_C, color='#A51C30', linewidth=1.5, alpha=0.8, label='Cauchy kümülatif ortalama (yakınsamaz!)')
ax.plot(run_mean_Z, color='#15803d', linewidth=1.5, alpha=0.8, label='Normal kümülatif ortalama (→ 0)')
ax.axhline(0, color='#1f2937', linestyle='--', alpha=0.5)
ax.set_xlabel('örneklem boyutu n', fontsize=12)
ax.set_ylabel('kümülatif ortalama', fontsize=12)
ax.set_title('Cauchy LLN başarısız — ortalama tanımsız; medyan kararlı (≈ 0)',
fontsize=12)
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)
ax.set_xscale('log')
plt.tight_layout()
plt.show()Cauchy ağır kuyruklu dağılımların afişidir: ortalama tanımsız → örneklem ortalaması yanıltıcı → robust istatistik (medyan) gerekir. Student-t (Ders 30) Cauchy’yi içerir; ağır-kuyruklu gradyan/ödül, finansal getiriler, aykırı-değer-bol verilerde “ortalama al” refleksi tehlikelidir.
21.8 Bu Dersin Özeti
- Normal toplam → MGF çarpımı.
- Yapıyı kullan: \(Z_1 - Z_2 = \sqrt{2} Z\).
- Multinomial: binom \(\to\) k kategori.
- Marjinal: Bin(\(n, p_j\)). Lumping: birleştir.
- Koşullu: yeniden normalleştir = masked softmax.
- Cauchy: ortalama/varyans yok, LLN başarısız.
Yapıyı tanı — \(Z_1 - Z_2\) Normal’dir; Multinomial binomun k-kategori genellemesi (marjinal Bin, lumping, koşullu yeniden-normalleştirme = masked softmax); Cauchy ortalaması olmayan ağır-kuyruk canavarıdır — robust ölçüler gerekir.
21.9 Kontrol Soruları
Cevap: (a) \(X+Y \sim N(10, 8)\), \(X-Y \sim N(0, 8)\). (b) \(\sqrt{8} \cdot \sqrt{2/\pi} = 4/\sqrt{\pi}\).
Cevap: (a) \(\text{Bin}(12, 1/6)\). (b) Lumping → \(\text{Bin}(12, 1/2)\).
Cevap: \(\text{Bin}(n - n_1, p_2/(1-p_1))\).
Cevap: Ortalama yok, iid ortalaması yine Cauchy → yakınsamaz. Medyan kullan (simetri sayesinde konum parametresine yakınsar). Finansal getiriler, ağır kuyruklu veride robust.
21.10 Egzersizler
Egzersiz 1. \(X \sim N(2,1), Y \sim N(-1,3)\) bağımsız. \(2X - 3Y\) dağılımı?
Egzersiz 2. Anket: \(n=100, p=(0{,}5, 0{,}3, 0{,}2)\). (a) Joint \((50,30,20)\). (b) Parti 1 marjinal. (c) Parti 2+3 lumping.
Egzersiz 3. \(X_1 = 45\) verildiğinde \((X_2, X_3)\)?
Egzersiz 4. (Python — Multinomial + Cauchy)
Egzersiz 5. (Sonraki ders) Multinomial’de \(\text{Cov}(X_i, X_j) < 0\) (toplam \(n\) sabit). \(k = 2\) (binom): \(\text{Cov}(X_1, X_2)\) işareti?
21.11 Sonraki Ders İçin Hazırlık
Ders 21: Kovaryans ve Korelasyon — Cov(X,Y), korelasyon, Cauchy-Schwarz.
- Egzersizleri çöz.
- “Bağımsız \(\Rightarrow E(XY) = E(X)E(Y)\)” hatırla.
21.12 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Blitzstein’de |
|---|---|---|
| Normal toplam | \(N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\) | 5m09 |
| Z₁−Z₂ | \(\sqrt{2}Z\), \(E\|\cdot\|=2/\sqrt{\pi}\) | 5m22 |
| Multinomial PMF | \(\frac{n!}{\prod n_j!} \prod p_j^{n_j}\) | 13m08 |
| Marjinal | Bin(\(n, p_j\)) | 16m40 |
| Lumping | Birleştir → yine Mult | 19m37 |
| Koşullu | Yeniden normalleştir \(p_j/(1-p_1)\) | 23m06 |
| Cauchy | \(T = X/Y\) | 30m24 |
| \(1/(\pi(1+t^2))\); E/Var YOK | 45m12 | |
| LLN başarısız | iid Cauchy ortalaması yine Cauchy | 32m24 |
21.13 ML Bağlantıları Özeti
- Normal kapanışı → diffusion, Kalman.
- Yapıyı tanı → reparameterization.
- Multinomial → softmax, cross-entropy, LDA.
- Marjinal Bin → one-vs-rest, sınıf-başına.
- Koşullu → masked softmax.
- Lumping → coarse-graining, hiyerarşik sınıf.
- Cauchy → robust istatistik (medyan), Student-t (Ders 30).
Yapıyı tanı. Multinomial softmax/cross-entropy temelidir; koşullu yeniden-normalleştirme = masked softmax. Cauchy ortalaması olmayan ağır kuyruğun uyarısıdır — medyan kullan.