21  Multinomial ve Cauchy

Softmax dağılımı + ağır kuyrukların habercisi

NotBölüm bilgisi

21.1 Bu Derste Ne Var?

  1. Yapıyı kullan: \(Z_1 - Z_2 \sim N(0, 2)\)\(E|Z_1 - Z_2| = 2/\sqrt{\pi}\) (2D LOTUS değil).
  2. Multinomial: binomun k kategoriye genellemesi.
  3. Lumping + koşullu: birleştir → yine Mult; yeniden normalleştir.
  4. Cauchy = X/Y: ortalama/varyans YOK; LLN başarısız.
İpucuBuilder Notu — ML Köprüleri
  • Yapıyı tanı → reparameterization, kapalı form KL.
  • Multinomialsoftmax + cross-entropy, topic modelleri (LDA), sayma.
  • Koşullu yeniden-normalleştirme (\(p_j/(1-p_1)\)) = masked softmax (attention’da maskelenen tokenlardan sonra).
  • Cauchy ağır kuyrukrobust istatistik (medyan), Student-t, finansal getiriler.

21.2 Bağımsız Normal Toplamı = Normal (MGF İspatı)

\(X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)\) bağımsız:

\[ M_{X+Y}(t) = e^{\mu_1 t + \sigma_1^2 t^2/2} \cdot e^{\mu_2 t + \sigma_2^2 t^2/2} = e^{(\mu_1+\mu_2) t + (\sigma_1^2+\sigma_2^2) t^2/2} \]

\(X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)\).

21.3 İki Normal Uzaklık (Yapıyı Kullan)

\(Z_1 - Z_2 \sim N(0, 2) = \sqrt{2} \cdot Z\). Tek boyutlu LOTUS:

\[ E|Z| = \sqrt{2/\pi} \;\Rightarrow\; E|Z_1 - Z_2| = \sqrt{2} \cdot \sqrt{2/\pi} = \frac{2}{\sqrt{\pi}} \]

“it’s better to stop and think about the structure of the problem” — Blitzstein, 1:36

21.4 Multinomial Dağılım

\(\vec{X} = (X_1, \ldots, X_k) \sim \text{Mult}(n, \vec{p})\), \(\sum p_j = 1\).

\[ P(X_1 = n_1, \ldots, X_k = n_k) = \frac{n!}{n_1! n_2! \cdots n_k!}\, p_1^{n_1} \cdots p_k^{n_k} \]

ÖnemliBuilder Notu — Softmax + Cross-Entropy

Multinomial çok-sınıflı sınıflandırmanın doğal dağılımı: softmax bir olasılık vektörü üretir, gözlemler Multinomial. Cross-entropy kaybı = Multinomial log-likelihood’unun negatifi. LDA topic modelleri, dil modelleri.

21.5 Marjinal (Binom) ve Lumping

Marjinal (hikâyeden):

\[ X_j \sim \text{Bin}(n, p_j), \quad E(X_j) = n p_j, \quad \text{Var}(X_j) = n p_j (1 - p_j) \]

Lumping: Kategorileri birleştir → yine Multinomial (olasılıklar toplanır).

21.6 Multinomial Koşullu

\((X_2, \ldots, X_k) \mid X_1 = n_1 \sim \text{Mult}(n - n_1, (p_j'))\), burada:

\[ p_j' = \frac{p_j}{1 - p_1} \]

ÖnemliBuilder Notu — Masked Softmax

\(p_j/(1 - p_1)\) yeniden-normalleştirmesi tam olarak masked softmax: attention’da bazı tokenları maskeleyince (0’a çekince), kalanların olasılıkları \((1 - \text{maskelenenin payı})\)’na bölünür. Kısıtlı üretim, causal attention.

21.7 Cauchy Dağılımı

\(T = X/Y\), \(X, Y \sim N(0, 1)\) bağımsız.

PDF türetimi (Leibniz, integral işareti altında türev):

\[ f(t) = \frac{1}{\pi(1 + t^2)}, \quad t \in \mathbb{R} \]

Tuhaf özellikler:

  • Ortalama YOK (\(\int t/(\pi(1+t^2)) dt\) ıraksar).
  • Varyans YOK.
  • iid Cauchy ortalaması yine Cauchy — LLN başarısız!

“You can average a million IID Cauchy it’s still gonna be Cauchy.” — Blitzstein, 32:24

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)
N = 5000

# Cauchy
X = rng.standard_normal(N); Y = rng.standard_normal(N)
C = X / Y
run_mean_C = np.cumsum(C) / np.arange(1, N+1)

# Normal
Z = rng.standard_normal(N)
run_mean_Z = np.cumsum(Z) / np.arange(1, N+1)

fig, ax = plt.subplots(figsize=(11, 5))
ax.plot(run_mean_C, color='#A51C30', linewidth=1.5, alpha=0.8, label='Cauchy kümülatif ortalama (yakınsamaz!)')
ax.plot(run_mean_Z, color='#15803d', linewidth=1.5, alpha=0.8, label='Normal kümülatif ortalama (→ 0)')
ax.axhline(0, color='#1f2937', linestyle='--', alpha=0.5)
ax.set_xlabel('örneklem boyutu n', fontsize=12)
ax.set_ylabel('kümülatif ortalama', fontsize=12)
ax.set_title('Cauchy LLN başarısız — ortalama tanımsız; medyan kararlı (≈ 0)',
             fontsize=12)
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)
ax.set_xscale('log')
plt.tight_layout()
plt.show()
Şekil 21.1
ÖnemliBuilder Notu — Ağır Kuyruk Uyarısı

Cauchy ağır kuyruklu dağılımların afişidir: ortalama tanımsız → örneklem ortalaması yanıltıcı → robust istatistik (medyan) gerekir. Student-t (Ders 30) Cauchy’yi içerir; ağır-kuyruklu gradyan/ödül, finansal getiriler, aykırı-değer-bol verilerde “ortalama al” refleksi tehlikelidir.

21.8 Bu Dersin Özeti

  1. Normal toplam → MGF çarpımı.
  2. Yapıyı kullan: \(Z_1 - Z_2 = \sqrt{2} Z\).
  3. Multinomial: binom \(\to\) k kategori.
  4. Marjinal: Bin(\(n, p_j\)). Lumping: birleştir.
  5. Koşullu: yeniden normalleştir = masked softmax.
  6. Cauchy: ortalama/varyans yok, LLN başarısız.
ÖnemliTek bir cümle

Yapıyı tanı\(Z_1 - Z_2\) Normal’dir; Multinomial binomun k-kategori genellemesi (marjinal Bin, lumping, koşullu yeniden-normalleştirme = masked softmax); Cauchy ortalaması olmayan ağır-kuyruk canavarıdır — robust ölçüler gerekir.

21.9 Kontrol Soruları

Cevap: (a) \(X+Y \sim N(10, 8)\), \(X-Y \sim N(0, 8)\). (b) \(\sqrt{8} \cdot \sqrt{2/\pi} = 4/\sqrt{\pi}\).

Cevap: (a) \(\text{Bin}(12, 1/6)\). (b) Lumping → \(\text{Bin}(12, 1/2)\).

Cevap: \(\text{Bin}(n - n_1, p_2/(1-p_1))\).

Cevap: Ortalama yok, iid ortalaması yine Cauchy → yakınsamaz. Medyan kullan (simetri sayesinde konum parametresine yakınsar). Finansal getiriler, ağır kuyruklu veride robust.

21.10 Egzersizler

Egzersiz 1. \(X \sim N(2,1), Y \sim N(-1,3)\) bağımsız. \(2X - 3Y\) dağılımı?

Egzersiz 2. Anket: \(n=100, p=(0{,}5, 0{,}3, 0{,}2)\). (a) Joint \((50,30,20)\). (b) Parti 1 marjinal. (c) Parti 2+3 lumping.

Egzersiz 3. \(X_1 = 45\) verildiğinde \((X_2, X_3)\)?

Egzersiz 4. (Python — Multinomial + Cauchy)

import numpy as np
rng = np.random.default_rng(0)

# Multinomial marjinali: X_1 ~ Bin(100, 0.5)?
draws = rng.multinomial(100, [0.5, 0.3, 0.2], size=100_000)
print(f"X_1 mean={draws[:,0].mean():.2f} (teori 50), var={draws[:,0].var():.2f} (teori 25)")

# Cauchy: ortalama vs medyan
C = rng.standard_normal(100_000) / rng.standard_normal(100_000)
print(f"Cauchy 'ortalama' (kararsız): {C.mean():.3f}")
print(f"Cauchy medyan (kararlı):     {np.median(C):.3f}")

Egzersiz 5. (Sonraki ders) Multinomial’de \(\text{Cov}(X_i, X_j) < 0\) (toplam \(n\) sabit). \(k = 2\) (binom): \(\text{Cov}(X_1, X_2)\) işareti?

21.11 Sonraki Ders İçin Hazırlık

Ders 21: Kovaryans ve Korelasyon — Cov(X,Y), korelasyon, Cauchy-Schwarz.

UyarıDers 21 öncesi yapılacak
  • Egzersizleri çöz.
  • “Bağımsız \(\Rightarrow E(XY) = E(X)E(Y)\)” hatırla.

21.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Blitzstein’de
Normal toplam \(N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\) 5m09
Z₁−Z₂ \(\sqrt{2}Z\), \(E\|\cdot\|=2/\sqrt{\pi}\) 5m22
Multinomial PMF \(\frac{n!}{\prod n_j!} \prod p_j^{n_j}\) 13m08
Marjinal Bin(\(n, p_j\)) 16m40
Lumping Birleştir → yine Mult 19m37
Koşullu Yeniden normalleştir \(p_j/(1-p_1)\) 23m06
Cauchy \(T = X/Y\) 30m24
PDF \(1/(\pi(1+t^2))\); E/Var YOK 45m12
LLN başarısız iid Cauchy ortalaması yine Cauchy 32m24

21.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. Normal kapanışı → diffusion, Kalman.
  2. Yapıyı tanı → reparameterization.
  3. Multinomialsoftmax, cross-entropy, LDA.
  4. Marjinal Bin → one-vs-rest, sınıf-başına.
  5. Koşullumasked softmax.
  6. Lumping → coarse-graining, hiyerarşik sınıf.
  7. Cauchyrobust istatistik (medyan), Student-t (Ders 30).
ÖnemliTek bir şey alıp gideceksen

Yapıyı tanı. Multinomial softmax/cross-entropy temelidir; koşullu yeniden-normalleştirme = masked softmax. Cauchy ortalaması olmayan ağır kuyruğun uyarısıdır — medyan kullan.