21 Multinomial ve Cauchy

Softmax dağılımı + ağır kuyrukların habercisi

Bölüm bilgisi

Blitzstein’in videosu: YouTube — Lecture 20: Multinomial and Cauchy (≈49 dk)
Okuma süresi: ≈35 dk

21.1 Bu Derste Ne Var?

Yapıyı kullan: $Z_1 - Z_2 \sim N(0, 2)$ → $E|Z_1 - Z_2| = 2/\sqrt{\pi}$ (2D LOTUS değil).
Multinomial: binomun k kategoriye genellemesi.
Lumping + koşullu: birleştir → yine Mult; yeniden normalleştir.
Cauchy = X/Y: ortalama/varyans YOK; LLN başarısız.

Builder Notu — ML Köprüleri

Yapıyı tanı → reparameterization, kapalı form KL.
Multinomial → softmax + cross-entropy, topic modelleri (LDA), sayma.
Koşullu yeniden-normalleştirme ($p_j/(1-p_1)$) = masked softmax (attention’da maskelenen tokenlardan sonra).
Cauchy ağır kuyruk → robust istatistik (medyan), Student-t, finansal getiriler.

21.2 Bağımsız Normal Toplamı = Normal (MGF İspatı)

$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ bağımsız:

\[ M_{X+Y}(t) = e^{\mu_1 t + \sigma_1^2 t^2/2} \cdot e^{\mu_2 t + \sigma_2^2 t^2/2} = e^{(\mu_1+\mu_2) t + (\sigma_1^2+\sigma_2^2) t^2/2} \]

→ $X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$.

21.3 İki Normal Uzaklık (Yapıyı Kullan)

$Z_1 - Z_2 \sim N(0, 2) = \sqrt{2} \cdot Z$. Tek boyutlu LOTUS:

\[ E|Z| = \sqrt{2/\pi} \;\Rightarrow\; E|Z_1 - Z_2| = \sqrt{2} \cdot \sqrt{2/\pi} = \frac{2}{\sqrt{\pi}} \]

“it’s better to stop and think about the structure of the problem” — Blitzstein, 1:36

21.4 Multinomial Dağılım

$\vec{X} = (X_1, \ldots, X_k) \sim \text{Mult}(n, \vec{p})$, $\sum p_j = 1$.

\[ P(X_1 = n_1, \ldots, X_k = n_k) = \frac{n!}{n_1! n_2! \cdots n_k!}\, p_1^{n_1} \cdots p_k^{n_k} \]

Builder Notu — Softmax + Cross-Entropy

Multinomial çok-sınıflı sınıflandırmanın doğal dağılımı: softmax bir olasılık vektörü üretir, gözlemler Multinomial. Cross-entropy kaybı = Multinomial log-likelihood’unun negatifi. LDA topic modelleri, dil modelleri.

21.5 Marjinal (Binom) ve Lumping

Marjinal (hikâyeden):

\[ X_j \sim \text{Bin}(n, p_j), \quad E(X_j) = n p_j, \quad \text{Var}(X_j) = n p_j (1 - p_j) \]

Lumping: Kategorileri birleştir → yine Multinomial (olasılıklar toplanır).

21.6 Multinomial Koşullu

$(X_2, \ldots, X_k) \mid X_1 = n_1 \sim \text{Mult}(n - n_1, (p_j'))$, burada:

\[ p_j' = \frac{p_j}{1 - p_1} \]

Builder Notu — Masked Softmax

$p_j/(1 - p_1)$ yeniden-normalleştirmesi tam olarak masked softmax: attention’da bazı tokenları maskeleyince (0’a çekince), kalanların olasılıkları $(1 - \text{maskelenenin payı})$’na bölünür. Kısıtlı üretim, causal attention.

21.7 Cauchy Dağılımı

$T = X/Y$, $X, Y \sim N(0, 1)$ bağımsız.

PDF türetimi (Leibniz, integral işareti altında türev):

\[ f(t) = \frac{1}{\pi(1 + t^2)}, \quad t \in \mathbb{R} \]

Tuhaf özellikler:

Ortalama YOK ($\int t/(\pi(1+t^2)) dt$ ıraksar).
Varyans YOK.
iid Cauchy ortalaması yine Cauchy — LLN başarısız!

“You can average a million IID Cauchy it’s still gonna be Cauchy.” — Blitzstein, 32:24

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)
N = 5000

# Cauchy
X = rng.standard_normal(N); Y = rng.standard_normal(N)
C = X / Y
run_mean_C = np.cumsum(C) / np.arange(1, N+1)

# Normal
Z = rng.standard_normal(N)
run_mean_Z = np.cumsum(Z) / np.arange(1, N+1)

fig, ax = plt.subplots(figsize=(11, 5))
ax.plot(run_mean_C, color='#A51C30', linewidth=1.5, alpha=0.8, label='Cauchy kümülatif ortalama (yakınsamaz!)')
ax.plot(run_mean_Z, color='#15803d', linewidth=1.5, alpha=0.8, label='Normal kümülatif ortalama (→ 0)')
ax.axhline(0, color='#1f2937', linestyle='--', alpha=0.5)
ax.set_xlabel('örneklem boyutu n', fontsize=12)
ax.set_ylabel('kümülatif ortalama', fontsize=12)
ax.set_title('Cauchy LLN başarısız — ortalama tanımsız; medyan kararlı (≈ 0)',
             fontsize=12)
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)
ax.set_xscale('log')
plt.tight_layout()
plt.show()

Şekil 21.1

Builder Notu — Ağır Kuyruk Uyarısı

Cauchy ağır kuyruklu dağılımların afişidir: ortalama tanımsız → örneklem ortalaması yanıltıcı → robust istatistik (medyan) gerekir. Student-t (Ders 30) Cauchy’yi içerir; ağır-kuyruklu gradyan/ödül, finansal getiriler, aykırı-değer-bol verilerde “ortalama al” refleksi tehlikelidir.

21.8 Bu Dersin Özeti

Normal toplam → MGF çarpımı.
Yapıyı kullan: $Z_1 - Z_2 = \sqrt{2} Z$.
Multinomial: binom $\to$ k kategori.
Marjinal: Bin($n, p_j$). Lumping: birleştir.
Koşullu: yeniden normalleştir = masked softmax.
Cauchy: ortalama/varyans yok, LLN başarısız.

Tek bir cümle

Yapıyı tanı — $Z_1 - Z_2$ Normal’dir; Multinomial binomun k-kategori genellemesi (marjinal Bin, lumping, koşullu yeniden-normalleştirme = masked softmax); Cauchy ortalaması olmayan ağır-kuyruk canavarıdır — robust ölçüler gerekir.

21.9 Kontrol Soruları

Soru 1: X, Y ~ N(5, 4) bağımsız. (a) X+Y, X-Y dağılımı? (b) E|X-Y|?

Cevap: (a) $X+Y \sim N(10, 8)$, $X-Y \sim N(0, 8)$. (b) $\sqrt{8} \cdot \sqrt{2/\pi} = 4/\sqrt{\pi}$.

Soru 2: Zar 12 atış. (a) X₆ dağılımı? (b) Çift sayı (2,4,6)?

Cevap: (a) $\text{Bin}(12, 1/6)$. (b) Lumping → $\text{Bin}(12, 1/2)$.

Soru 3: X₁ = n₁ verildiğinde X₂?

Cevap: $\text{Bin}(n - n_1, p_2/(1-p_1))$.

Soru 4: (Builder) Cauchy veride merkez tahmini? Ortalama neden?

Cevap: Ortalama yok, iid ortalaması yine Cauchy → yakınsamaz. Medyan kullan (simetri sayesinde konum parametresine yakınsar). Finansal getiriler, ağır kuyruklu veride robust.

21.10 Egzersizler

Egzersiz 1. $X \sim N(2,1), Y \sim N(-1,3)$ bağımsız. $2X - 3Y$ dağılımı?

Egzersiz 2. Anket: $n=100, p=(0{,}5, 0{,}3, 0{,}2)$. (a) Joint $(50,30,20)$. (b) Parti 1 marjinal. (c) Parti 2+3 lumping.

Egzersiz 3. $X_1 = 45$ verildiğinde $(X_2, X_3)$?

Egzersiz 4. (Python — Multinomial + Cauchy)

import numpy as np
rng = np.random.default_rng(0)

# Multinomial marjinali: X_1 ~ Bin(100, 0.5)?
draws = rng.multinomial(100, [0.5, 0.3, 0.2], size=100_000)
print(f"X_1 mean={draws[:,0].mean():.2f} (teori 50), var={draws[:,0].var():.2f} (teori 25)")

# Cauchy: ortalama vs medyan
C = rng.standard_normal(100_000) / rng.standard_normal(100_000)
print(f"Cauchy 'ortalama' (kararsız): {C.mean():.3f}")
print(f"Cauchy medyan (kararlı):     {np.median(C):.3f}")

Egzersiz 5. (Sonraki ders) Multinomial’de $\text{Cov}(X_i, X_j) < 0$ (toplam $n$ sabit). $k = 2$ (binom): $\text{Cov}(X_1, X_2)$ işareti?

21.11 Sonraki Ders İçin Hazırlık

Ders 21: Kovaryans ve Korelasyon — Cov(X,Y), korelasyon, Cauchy-Schwarz.

Ders 21 öncesi yapılacak

Egzersizleri çöz.
“Bağımsız $\Rightarrow E(XY) = E(X)E(Y)$” hatırla.

21.12 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Blitzstein’de
Normal toplam	$N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$	5m09
Z₁−Z₂	$\sqrt{2}Z$, $E\\|\cdot\\|=2/\sqrt{\pi}$	5m22
Multinomial PMF	$\frac{n!}{\prod n_j!} \prod p_j^{n_j}$	13m08
Marjinal	Bin($n, p_j$)	16m40
Lumping	Birleştir → yine Mult	19m37
Koşullu	Yeniden normalleştir $p_j/(1-p_1)$	23m06
Cauchy	$T = X/Y$	30m24
PDF	$1/(\pi(1+t^2))$; E/Var YOK	45m12
LLN başarısız	iid Cauchy ortalaması yine Cauchy	32m24

21.13 ML Bağlantıları Özeti

7 köprü

Normal kapanışı → diffusion, Kalman.
Yapıyı tanı → reparameterization.
Multinomial → softmax, cross-entropy, LDA.
Marjinal Bin → one-vs-rest, sınıf-başına.
Koşullu → masked softmax.
Lumping → coarse-graining, hiyerarşik sınıf.
Cauchy → robust istatistik (medyan), Student-t (Ders 30).

Tek bir şey alıp gideceksen

Yapıyı tanı. Multinomial softmax/cross-entropy temelidir; koşullu yeniden-normalleştirme = masked softmax. Cauchy ortalaması olmayan ağır kuyruğun uyarısıdır — medyan kullan.

--- title: "Multinomial ve Cauchy" subtitle: "Softmax dağılımı + ağır kuyrukların habercisi" --- ::: {.callout-note title="Bölüm bilgisi"} - **Blitzstein'in videosu:** [YouTube — Lecture 20: Multinomial and Cauchy](https://www.youtube.com/watch?v=xiVWNkQUqKk) (≈49 dk) - **Okuma süresi:** ≈35 dk ::: ## Bu Derste Ne Var? {#sec-bu-derste} 1. **Yapıyı kullan:** $Z_1 - Z_2 \sim N(0, 2)$ → $E|Z_1 - Z_2| = 2/\sqrt{\pi}$ (2D LOTUS değil). 2. **Multinomial:** binomun k kategoriye genellemesi. 3. **Lumping + koşullu:** birleştir → yine Mult; yeniden normalleştir. 4. **Cauchy = X/Y:** ortalama/varyans **YOK**; LLN başarısız. ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **Yapıyı tanı** → reparameterization, kapalı form KL. - **Multinomial** → **softmax** + cross-entropy, **topic modelleri (LDA)**, sayma. - **Koşullu yeniden-normalleştirme ($p_j/(1-p_1)$)** = **masked softmax** (attention'da maskelenen tokenlardan sonra). - **Cauchy ağır kuyruk** → **robust istatistik** (medyan), **Student-t**, finansal getiriler. ::: ## Bağımsız Normal Toplamı = Normal (MGF İspatı) {#sec-normal-mgf} $X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ bağımsız: $$ M_{X+Y}(t) = e^{\mu_1 t + \sigma_1^2 t^2/2} \cdot e^{\mu_2 t + \sigma_2^2 t^2/2} = e^{(\mu_1+\mu_2) t + (\sigma_1^2+\sigma_2^2) t^2/2} $$ → $X + Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$. ## İki Normal Uzaklık (Yapıyı Kullan) {#sec-z1-z2} $Z_1 - Z_2 \sim N(0, 2) = \sqrt{2} \cdot Z$. Tek boyutlu LOTUS: $$ E|Z| = \sqrt{2/\pi} \;\Rightarrow\; E|Z_1 - Z_2| = \sqrt{2} \cdot \sqrt{2/\pi} = \frac{2}{\sqrt{\pi}} $$ > *"it's better to stop and think about the structure of the problem"* — Blitzstein, 1:36 ## Multinomial Dağılım {#sec-multinomial} $\vec{X} = (X_1, \ldots, X_k) \sim \text{Mult}(n, \vec{p})$, $\sum p_j = 1$. $$ P(X_1 = n_1, \ldots, X_k = n_k) = \frac{n!}{n_1! n_2! \cdots n_k!}\, p_1^{n_1} \cdots p_k^{n_k} $$ ::: {.callout-important title="Builder Notu — Softmax + Cross-Entropy"} Multinomial **çok-sınıflı sınıflandırmanın doğal dağılımı**: softmax bir olasılık vektörü üretir, gözlemler Multinomial. **Cross-entropy kaybı** = Multinomial log-likelihood'unun negatifi. LDA topic modelleri, dil modelleri. ::: ## Marjinal (Binom) ve Lumping {#sec-marjinal-lumping} **Marjinal (hikâyeden):** $$ X_j \sim \text{Bin}(n, p_j), \quad E(X_j) = n p_j, \quad \text{Var}(X_j) = n p_j (1 - p_j) $$ **Lumping:** Kategorileri birleştir → yine Multinomial (olasılıklar toplanır). ## Multinomial Koşullu {#sec-koşullu-mult} $(X_2, \ldots, X_k) \mid X_1 = n_1 \sim \text{Mult}(n - n_1, (p_j'))$, burada: $$ p_j' = \frac{p_j}{1 - p_1} $$ ::: {.callout-important title="Builder Notu — Masked Softmax"} $p_j/(1 - p_1)$ yeniden-normalleştirmesi **tam olarak masked softmax**: attention'da bazı tokenları maskeleyince (0'a çekince), kalanların olasılıkları $(1 - \text{maskelenenin payı})$'na bölünür. Kısıtlı üretim, causal attention. ::: ## Cauchy Dağılımı {#sec-cauchy} $T = X/Y$, $X, Y \sim N(0, 1)$ bağımsız. **PDF türetimi** (Leibniz, integral işareti altında türev): $$ f(t) = \frac{1}{\pi(1 + t^2)}, \quad t \in \mathbb{R} $$ **Tuhaf özellikler:** - **Ortalama YOK** ($\int t/(\pi(1+t^2)) dt$ ıraksar). - **Varyans YOK**. - **iid Cauchy ortalaması yine Cauchy** — LLN başarısız! > *"You can average a million IID Cauchy it's still gonna be Cauchy."* — Blitzstein, 32:24 ```{python} #| label: fig-cauchy-lln #| fig-cap: "Cauchy LLN başarısız: kümülatif ortalama yakınsamaz (mavi). Normal'in kümülatif ortalaması 0'a oturur (yeşil). Cauchy'de ortalama tanımsız; çözüm: medyan (kararlı)." #| fig-width: 11 #| fig-height: 5 import numpy as np import matplotlib.pyplot as plt rng = np.random.default_rng(0) N = 5000 # Cauchy X = rng.standard_normal(N); Y = rng.standard_normal(N) C = X / Y run_mean_C = np.cumsum(C) / np.arange(1, N+1) # Normal Z = rng.standard_normal(N) run_mean_Z = np.cumsum(Z) / np.arange(1, N+1) fig, ax = plt.subplots(figsize=(11, 5)) ax.plot(run_mean_C, color='#A51C30', linewidth=1.5, alpha=0.8, label='Cauchy kümülatif ortalama (yakınsamaz!)') ax.plot(run_mean_Z, color='#15803d', linewidth=1.5, alpha=0.8, label='Normal kümülatif ortalama (→ 0)') ax.axhline(0, color='#1f2937', linestyle='--', alpha=0.5) ax.set_xlabel('örneklem boyutu n', fontsize=12) ax.set_ylabel('kümülatif ortalama', fontsize=12) ax.set_title('Cauchy LLN başarısız — ortalama tanımsız; medyan kararlı (≈ 0)', fontsize=12) ax.legend(fontsize=11) ax.grid(True, alpha=0.3) ax.set_xscale('log') plt.tight_layout() plt.show() ``` ::: {.callout-important title="Builder Notu — Ağır Kuyruk Uyarısı"} Cauchy **ağır kuyruklu dağılımların afişidir**: ortalama tanımsız → örneklem ortalaması yanıltıcı → **robust istatistik (medyan)** gerekir. **Student-t** (Ders 30) Cauchy'yi içerir; ağır-kuyruklu gradyan/ödül, finansal getiriler, aykırı-değer-bol verilerde "ortalama al" refleksi tehlikelidir. ::: ## Bu Dersin Özeti {#sec-ozet} 1. **Normal toplam** → MGF çarpımı. 2. **Yapıyı kullan:** $Z_1 - Z_2 = \sqrt{2} Z$. 3. **Multinomial:** binom $\to$ k kategori. 4. **Marjinal:** Bin($n, p_j$). **Lumping:** birleştir. 5. **Koşullu:** yeniden normalleştir = **masked softmax**. 6. **Cauchy:** ortalama/varyans yok, LLN başarısız. ::: {.callout-important title="Tek bir cümle"} **Yapıyı tanı** — $Z_1 - Z_2$ Normal'dir; **Multinomial** binomun k-kategori genellemesi (marjinal Bin, lumping, koşullu yeniden-normalleştirme = **masked softmax**); **Cauchy** ortalaması olmayan ağır-kuyruk canavarıdır — robust ölçüler gerekir. ::: ## Kontrol Soruları {#sec-sorular} ::: {.callout-note collapse="true" title="Soru 1: X, Y ~ N(5, 4) bağımsız. (a) X+Y, X-Y dağılımı? (b) E|X-Y|?"} **Cevap:** (a) $X+Y \sim N(10, 8)$, $X-Y \sim N(0, 8)$. (b) $\sqrt{8} \cdot \sqrt{2/\pi} = 4/\sqrt{\pi}$. ::: ::: {.callout-note collapse="true" title="Soru 2: Zar 12 atış. (a) X₆ dağılımı? (b) Çift sayı (2,4,6)?"} **Cevap:** (a) $\text{Bin}(12, 1/6)$. (b) Lumping → $\text{Bin}(12, 1/2)$. ::: ::: {.callout-note collapse="true" title="Soru 3: X₁ = n₁ verildiğinde X₂?"} **Cevap:** $\text{Bin}(n - n_1, p_2/(1-p_1))$. ::: ::: {.callout-note collapse="true" title="Soru 4: (Builder) Cauchy veride merkez tahmini? Ortalama neden?"} **Cevap:** Ortalama yok, iid ortalaması yine Cauchy → yakınsamaz. **Medyan** kullan (simetri sayesinde konum parametresine yakınsar). Finansal getiriler, ağır kuyruklu veride **robust**. ::: ## Egzersizler {#sec-egzersizler} **Egzersiz 1.** $X \sim N(2,1), Y \sim N(-1,3)$ bağımsız. $2X - 3Y$ dağılımı? **Egzersiz 2.** Anket: $n=100, p=(0{,}5, 0{,}3, 0{,}2)$. (a) Joint $(50,30,20)$. (b) Parti 1 marjinal. (c) Parti 2+3 lumping. **Egzersiz 3.** $X_1 = 45$ verildiğinde $(X_2, X_3)$? **Egzersiz 4.** *(Python — Multinomial + Cauchy)* ```{python} #| label: ex-mult-cauchy #| code-fold: false import numpy as np rng = np.random.default_rng(0) # Multinomial marjinali: X_1 ~ Bin(100, 0.5)? draws = rng.multinomial(100, [0.5, 0.3, 0.2], size=100_000) print(f"X_1 mean={draws[:,0].mean():.2f} (teori 50), var={draws[:,0].var():.2f} (teori 25)") # Cauchy: ortalama vs medyan C = rng.standard_normal(100_000) / rng.standard_normal(100_000) print(f"Cauchy 'ortalama' (kararsız): {C.mean():.3f}") print(f"Cauchy medyan (kararlı): {np.median(C):.3f}") ``` **Egzersiz 5.** *(Sonraki ders)* Multinomial'de $\text{Cov}(X_i, X_j) < 0$ (toplam $n$ sabit). $k = 2$ (binom): $\text{Cov}(X_1, X_2)$ işareti? ## Sonraki Ders İçin Hazırlık {#sec-sonraki} **Ders 21: Kovaryans ve Korelasyon** — Cov(X,Y), korelasyon, Cauchy-Schwarz. ::: {.callout-warning title="Ders 21 öncesi yapılacak"} - Egzersizleri çöz. - "Bağımsız $\Rightarrow E(XY) = E(X)E(Y)$" hatırla. ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-sheet} | Kavram | Tanım | Blitzstein'de | |--------|-------|---------------| | **Normal toplam** | $N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$ | 5m09 | | **Z₁−Z₂** | $\sqrt{2}Z$, $E\|\cdot\|=2/\sqrt{\pi}$ | 5m22 | | **Multinomial PMF** | $\frac{n!}{\prod n_j!} \prod p_j^{n_j}$ | 13m08 | | **Marjinal** | Bin($n, p_j$) | 16m40 | | **Lumping** | Birleştir → yine Mult | 19m37 | | **Koşullu** | Yeniden normalleştir $p_j/(1-p_1)$ | 23m06 | | **Cauchy** | $T = X/Y$ | 30m24 | | **PDF** | $1/(\pi(1+t^2))$; E/Var YOK | 45m12 | | **LLN başarısız** | iid Cauchy ortalaması yine Cauchy | 32m24 | ## ML Bağlantıları Özeti {#sec-ml-baglantilar} ::: {.callout-tip title="7 köprü"} 1. **Normal kapanışı** → diffusion, Kalman. 2. **Yapıyı tanı** → reparameterization. 3. **Multinomial** → **softmax**, cross-entropy, **LDA**. 4. **Marjinal Bin** → one-vs-rest, sınıf-başına. 5. **Koşullu** → **masked softmax**. 6. **Lumping** → coarse-graining, hiyerarşik sınıf. 7. **Cauchy** → **robust istatistik (medyan)**, Student-t (Ders 30). ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} **Yapıyı tanı**. **Multinomial** softmax/cross-entropy temelidir; **koşullu yeniden-normalleştirme = masked softmax**. **Cauchy** ortalaması olmayan ağır kuyruğun uyarısıdır — **medyan kullan**. :::