30 Büyük Sayılar Yasası ve Merkezi Limit Teoremi

1/√n hata ölçeği; istatistiğin iki büyük teoremi

Bölüm bilgisi

Blitzstein’in videosu: YouTube — Lecture 29 (≈51 dk)
Okuma süresi: ≈24 dk

30.1 Bu Derste Ne Var?

BSY: $\bar{X}_n \to \mu$ — nereye (sabit).
MLT: $\sqrt{n}(\bar{X}_n - \mu)/\sigma \to N(0, 1)$ — nasıl (şekil + $\sqrt{n}$ hız).
Var$(\bar{X}_n) = \sigma^2/n$ — $1/\sqrt{n}$ hata ölçeği.
MLT ispatı: MGF + L’Hôpital.
Binom normal yaklaşım + süreklilik düzeltmesi.

Builder Notu — ML Köprüleri

$1/\sqrt{n}$ ölçeği → Monte Carlo, minibatch gradyan, A/B test örneklem.
$\sigma/\sqrt{n}$ → ensemble/bagging ($n$ bağımsız model varyansı $1/n$).
$\sqrt{n_{in}}$ init → Xavier/He ağırlık ilklendirme.
$\sqrt{d}$ attention → $QK^T/\sqrt{d}$ skorları, $d$ bağımsız terim SD’si.
MLT → Gauss varsayımı her yerde: diffusion, VAE prior, gürültü modelleri.
iid kırılması → distribution shift, RL’de policy değişikliği.

30.2 Kurulum

$X_1, X_2, \ldots$ iid, $E(X_j) = \mu$, Var$(X_j) = \sigma^2$ (sonlu).

\[ \bar{X}_n = \frac{1}{n}\sum_{j=1}^n X_j \]

Anahtar:

\[ \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}, \quad \text{SD}(\bar{X}_n) = \frac{\sigma}{\sqrt{n}} \]

30.3 Büyük Sayılar Yasası

Güçlü BSY: $\bar{X}_n \to \mu$ olasılık 1 ile (noktasal).

Zayıf BSY: Her $c > 0$ için $P(|\bar{X}_n - \mu| > c) \to 0$ (olasılıkta).

İspat (Chebyshev, tek satır):

\[ P(|\bar{X}_n - \mu| > c) \le \frac{\text{Var}(\bar{X}_n)}{c^2} = \frac{\sigma^2}{nc^2} \to 0 \]

“This theorem is crucial for science to be possible.” — Blitzstein, 9:59

Builder Notu — Tutarlılık (Consistency)

“Olasılıkta yakınsama” = tahmincinin tutarlılığı. MLE, SGD yakınsaması hep bu dilde. Kumarbazın yanılgısı (“telafi olur”) BSY’yi yanlış yorumlar — BSY swamping ile çalışır, telafi ile değil.

30.4 Merkezi Limit Teoremi

\[ \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) \]

Şaşırtıcı: sadece sonlu varyans yeter. $X_j$’ler ne kadar çirkin olsa da ortalaması normale gider.

Neden $\sqrt{n}$? SD$(\bar{X}_n) = \sigma/\sqrt{n}$ → $\sqrt{n}$ ile çarp → SD sabitlenir.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

rng = np.random.default_rng(0)
trials = 50_000

fig, axes = plt.subplots(1, 3, figsize=(11, 4))
for ax, n in zip(axes, [1, 10, 100]):
    means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
    ax.hist(means, bins=60, density=True, color='#A51C30', alpha=0.7, edgecolor='#6B0E1B')
    # Normal teori
    sd = 1/np.sqrt(n)
    x = np.linspace(means.min(), means.max(), 200)
    ax.plot(x, norm.pdf(x, 1, sd), color='#1f2937', linewidth=2.5,
            label=f'N(1, {sd**2:.3f})')
    ax.set_title(f'n = {n}: SD = {sd:.3f}', fontsize=11)
    ax.set_xlabel('$\\bar{X}_n$')
    ax.legend(fontsize=10)
    ax.grid(True, alpha=0.3)

fig.suptitle('MLT: Üstel(1) çarpık dağılım → n büyüdükçe ortalama Normal\'e gider',
             fontsize=12, y=1.02)
plt.tight_layout()
plt.show()

Şekil 30.1

Builder Notu — $\sqrt{d}$ Her Yerde

$\sqrt{n}$ ölçeği DL’de her yerde: (1) Xavier/He init $1/\sqrt{n_{in}}$ → katman varyansı sabit; (2) Attention $QK^T/\sqrt{d}$ → $d$ bağımsız terim SD’si $\sqrt{d}$; (3) Layer norm sezgisi. MLT bilmeden bu $\sqrt{\cdot}$ bölenlerin anlaşılması zor.

30.5 MLT İspatı (MGF + L’Hôpital)

Standartlaştır: $\mu = 0, \sigma = 1$. $S_n = \sum X_j$, $E(e^{tS_n/\sqrt{n}}) = [M(t/\sqrt{n})]^n$.

Log + $y = 1/\sqrt{n}$:

\[ \lim_{y \to 0} \frac{\ln M(yt)}{y^2}, \quad 0/0 \]

L’Hôpital ×2 + $M(0) = 1, M'(0) = 0, M''(0) = 1$:

\[ \frac{t}{2} \cdot t \cdot M''(0) = \frac{t^2}{2} \]

Üs al → $e^{t^2/2}$ = $N(0, 1)$ MGF’i. ∎

30.6 Binom Normal Yaklaşımı

$X \sim$ Bin($n, p$): $E = np$, SD $= \sqrt{npq}$.

\[ P(a \le X \le b) \approx \Phi\!\left(\frac{b - np}{\sqrt{npq}}\right) - \Phi\!\left(\frac{a - np}{\sqrt{npq}}\right) \]

$p \approx 1/2$ iyi. Süreklilik düzeltmesi:

\[ P(X = a) \approx P(a - 0{,}5 \le X \le a + 0{,}5) \]

Poisson vs Normal: $p \to 0$ (nadir) → Poisson; $p \approx 1/2$ → Normal.

30.7 Bu Dersin Özeti

BSY: $\bar{X}_n \to \mu$.
Var$(\bar{X}_n) = \sigma^2/n$.
Zayıf BSY: Chebyshev tek satır.
MLT: dağılımda $\sqrt{n}$ ölçeği.
Binom normal + süreklilik düzeltmesi.

Tek bir cümle

Bağımsız özdeş şeyleri ortalarsan, gerçeğe gider (BSY) ve etrafındaki dalgalanma $1/\sqrt{n}$ ölçeğinde çana dönüşür (MLT) — dağılım ne olursa olsun. Bilim ve istatistik bu iki garanti üzerine kuruludur.

30.8 Kontrol Soruları

Soru 1: BSY vs MLT?

Cevap: BSY nereye (sabit $\mu$). MLT nasıl ($\sqrt{n}$ ölçeği + Normal). Farklı yakınsama türleri.

Soru 2: Var($\bar{X}_n$)? Zayıf BSY?

Cevap: $\sigma^2/n$. Chebyshev → $\sigma^2/(nc^2) \to 0$.

Soru 3: Neden $\sqrt{n}$?

Cevap: SD$(\bar{X}_n) = \sigma/\sqrt{n}$. $\sqrt{n}$ ile çarpılırsa SD sabitlenir → dejenere olmayan limit.

Soru 4: Bin(100, 0.5), P(X=50) normal yaklaşım?

Cevap: $\Phi(0.1) - \Phi(-0.1) \approx 0{,}0796$ (gerçek değer 0.0796, mükemmel).

30.9 Egzersizler

Egzersiz 1. $\sigma^2 = 9$, SD $\le 0{,}1$ için $n$? Hatayı yarıya $n$ kaç kat?

Egzersiz 2. Bern(0.5), $P(|\bar{X}_n - 0{,}5| > 0{,}05) \le 0{,}01$ için $n$ (Chebyshev).

Egzersiz 3. Exp(1) iid, $n = 100$. $\bar{X}_{100}$ yaklaşık dağılımı?

Egzersiz 4. Bin(400, 0.5), $P(X \ge 220)$ normal yaklaşım + süreklilik.

Egzersiz 5. (Python — MLT gözlemle)

import numpy as np
from scipy import stats

rng = np.random.default_rng(0)
trials = 50_000

for n in [1, 10, 100]:
    means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
    skew = stats.skew(means)
    print(f"n={n:3d}: emp SD={means.std():.4f}  teorik σ/√n={1/np.sqrt(n):.4f}  çarpıklık={skew:+.3f} (→ 0)")

30.10 Sonraki Ders İçin Hazırlık

Ders 30: Ki-Kare, Student-t, MVN — Normal’in türevleri.

Ders 30 öncesi yapılacak

Egzersizleri çöz.
$\sqrt{n}$ ölçeği + binom normal yaklaşımını içselleştir.

30.11 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Not
$\bar{X}_n$	$\frac{1}{n}\sum X_j$	RV
Var($\bar{X}_n$)	$\sigma^2/n$	SD = $\sigma/\sqrt{n}$
Güçlü BSY	$\bar{X}_n \to \mu$ (ols 1)	Noktasal
Zayıf BSY	$P \to 0$	Olasılıkta; Chebyshev
MLT	$\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$	Dağılımda
Binom normal	$\Phi$ farkı	$p \approx 1/2$
Süreklilik düzeltmesi	$P(X=a) \approx P(a \pm 0.5)$	Kesikli→sürekli

30.12 ML Bağlantıları Özeti

7 köprü

$1/\sqrt{n}$ ölçeği → Monte Carlo, minibatch.
Xavier/He init $1/\sqrt{n_{in}}$.
Attention $1/\sqrt{d}$.
Tutarlılık (consistency).
Ensemble/bagging $\sigma^2/n$.
Gauss her yerde → diffusion, VAE.
iid kırılması → distribution shift, RL.

Tek bir şey alıp gideceksen

Yeterince çok şey topla, gerçeğe git ($\mu$, BSY) + çana dön ($N(0,1)$, MLT), dağılım ne olursa olsun. $1/\sqrt{n}$ ölçeği ML’de her yerde.

--- title: "Büyük Sayılar Yasası ve Merkezi Limit Teoremi" subtitle: "1/√n hata ölçeği; istatistiğin iki büyük teoremi" --- ::: {.callout-note title="Bölüm bilgisi"} - **Blitzstein'in videosu:** [YouTube — Lecture 29](https://www.youtube.com/watch?v=OprNqnHsVIA) (≈51 dk) - **Okuma süresi:** ≈24 dk ::: ## Bu Derste Ne Var? {#sec-bu-derste} 1. **BSY:** $\bar{X}_n \to \mu$ — *nereye* (sabit). 2. **MLT:** $\sqrt{n}(\bar{X}_n - \mu)/\sigma \to N(0, 1)$ — *nasıl* (şekil + $\sqrt{n}$ hız). 3. **Var$(\bar{X}_n) = \sigma^2/n$** — **$1/\sqrt{n}$** hata ölçeği. 4. **MLT ispatı:** MGF + L'Hôpital. 5. **Binom normal yaklaşım** + süreklilik düzeltmesi. ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **$1/\sqrt{n}$ ölçeği** → **Monte Carlo, minibatch gradyan, A/B test örneklem**. - **$\sigma/\sqrt{n}$** → **ensemble/bagging** ($n$ bağımsız model varyansı $1/n$). - **$\sqrt{n_{in}}$ init** → **Xavier/He** ağırlık ilklendirme. - **$\sqrt{d}$ attention** → $QK^T/\sqrt{d}$ skorları, $d$ bağımsız terim SD'si. - **MLT** → **Gauss varsayımı her yerde**: diffusion, VAE prior, gürültü modelleri. - **iid kırılması** → distribution shift, RL'de policy değişikliği. ::: ## Kurulum {#sec-kurulum} $X_1, X_2, \ldots$ iid, $E(X_j) = \mu$, Var$(X_j) = \sigma^2$ (sonlu). $$ \bar{X}_n = \frac{1}{n}\sum_{j=1}^n X_j $$ **Anahtar:** $$ \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}, \quad \text{SD}(\bar{X}_n) = \frac{\sigma}{\sqrt{n}} $$ ## Büyük Sayılar Yasası {#sec-bsy} **Güçlü BSY:** $\bar{X}_n \to \mu$ olasılık 1 ile (noktasal). **Zayıf BSY:** Her $c > 0$ için $P(|\bar{X}_n - \mu| > c) \to 0$ (olasılıkta). **İspat (Chebyshev, tek satır):** $$ P(|\bar{X}_n - \mu| > c) \le \frac{\text{Var}(\bar{X}_n)}{c^2} = \frac{\sigma^2}{nc^2} \to 0 $$ > *"This theorem is crucial for science to be possible."* — Blitzstein, 9:59 ::: {.callout-tip title="Builder Notu — Tutarlılık (Consistency)"} "**Olasılıkta yakınsama**" = **tahmincinin tutarlılığı**. MLE, **SGD yakınsaması** hep bu dilde. **Kumarbazın yanılgısı** ("telafi olur") BSY'yi yanlış yorumlar — BSY **swamping** ile çalışır, telafi ile değil. ::: ## Merkezi Limit Teoremi {#sec-mlt} $$ \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) $$ **Şaşırtıcı:** sadece sonlu varyans yeter. $X_j$'ler ne kadar çirkin olsa da ortalaması normale gider. **Neden $\sqrt{n}$?** SD$(\bar{X}_n) = \sigma/\sqrt{n}$ → $\sqrt{n}$ ile çarp → SD sabitlenir. ```{python} #| label: fig-clt-ustel #| fig-cap: "MLT canlı: Üstel(1) çarpık dağılımdan örneklem ortalamasının dağılımı. n=1 çarpık; n=10, 100 hızla Normal'e oturuyor. SD = σ/√n ölçeği. \"Yeterince çok şey topla, çana dönüş\"" #| fig-width: 11 #| fig-height: 4 import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm rng = np.random.default_rng(0) trials = 50_000 fig, axes = plt.subplots(1, 3, figsize=(11, 4)) for ax, n in zip(axes, [1, 10, 100]): means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1) ax.hist(means, bins=60, density=True, color='#A51C30', alpha=0.7, edgecolor='#6B0E1B') # Normal teori sd = 1/np.sqrt(n) x = np.linspace(means.min(), means.max(), 200) ax.plot(x, norm.pdf(x, 1, sd), color='#1f2937', linewidth=2.5, label=f'N(1, {sd**2:.3f})') ax.set_title(f'n = {n}: SD = {sd:.3f}', fontsize=11) ax.set_xlabel('$\\bar{X}_n$') ax.legend(fontsize=10) ax.grid(True, alpha=0.3) fig.suptitle('MLT: Üstel(1) çarpık dağılım → n büyüdükçe ortalama Normal\'e gider', fontsize=12, y=1.02) plt.tight_layout() plt.show() ``` ::: {.callout-important title="Builder Notu — $\\sqrt{d}$ Her Yerde"} **$\sqrt{n}$ ölçeği DL'de her yerde:** (1) **Xavier/He init** $1/\sqrt{n_{in}}$ → katman varyansı sabit; (2) **Attention** $QK^T/\sqrt{d}$ → $d$ bağımsız terim SD'si $\sqrt{d}$; (3) Layer norm sezgisi. MLT bilmeden bu $\sqrt{\cdot}$ bölenlerin anlaşılması zor. ::: ## MLT İspatı (MGF + L'Hôpital) {#sec-mlt-ispat} Standartlaştır: $\mu = 0, \sigma = 1$. $S_n = \sum X_j$, $E(e^{tS_n/\sqrt{n}}) = [M(t/\sqrt{n})]^n$. Log + $y = 1/\sqrt{n}$: $$ \lim_{y \to 0} \frac{\ln M(yt)}{y^2}, \quad 0/0 $$ L'Hôpital ×2 + $M(0) = 1, M'(0) = 0, M''(0) = 1$: $$ \frac{t}{2} \cdot t \cdot M''(0) = \frac{t^2}{2} $$ Üs al → $e^{t^2/2}$ = $N(0, 1)$ MGF'i. ∎ ## Binom Normal Yaklaşımı {#sec-binom-normal} $X \sim$ Bin($n, p$): $E = np$, SD $= \sqrt{npq}$. $$ P(a \le X \le b) \approx \Phi\!\left(\frac{b - np}{\sqrt{npq}}\right) - \Phi\!\left(\frac{a - np}{\sqrt{npq}}\right) $$ **$p \approx 1/2$** iyi. **Süreklilik düzeltmesi:** $$ P(X = a) \approx P(a - 0{,}5 \le X \le a + 0{,}5) $$ **Poisson vs Normal:** $p \to 0$ (nadir) → Poisson; $p \approx 1/2$ → Normal. ## Bu Dersin Özeti {#sec-ozet} 1. **BSY:** $\bar{X}_n \to \mu$. 2. **Var$(\bar{X}_n) = \sigma^2/n$**. 3. **Zayıf BSY:** Chebyshev tek satır. 4. **MLT:** dağılımda $\sqrt{n}$ ölçeği. 5. **Binom normal + süreklilik düzeltmesi.** ::: {.callout-important title="Tek bir cümle"} Bağımsız özdeş şeyleri ortalarsan, **gerçeğe gider** (BSY) ve etrafındaki dalgalanma **$1/\sqrt{n}$ ölçeğinde çana** dönüşür (MLT) — dağılım ne olursa olsun. **Bilim ve istatistik bu iki garanti üzerine kuruludur.** ::: ## Kontrol Soruları {#sec-sorular} ::: {.callout-note collapse="true" title="Soru 1: BSY vs MLT?"} **Cevap:** BSY **nereye** (sabit $\mu$). MLT **nasıl** ($\sqrt{n}$ ölçeği + Normal). Farklı yakınsama türleri. ::: ::: {.callout-note collapse="true" title="Soru 2: Var($\\bar{X}_n$)? Zayıf BSY?"} **Cevap:** $\sigma^2/n$. Chebyshev → $\sigma^2/(nc^2) \to 0$. ::: ::: {.callout-note collapse="true" title="Soru 3: Neden $\\sqrt{n}$?"} **Cevap:** SD$(\bar{X}_n) = \sigma/\sqrt{n}$. $\sqrt{n}$ ile çarpılırsa SD sabitlenir → dejenere olmayan limit. ::: ::: {.callout-note collapse="true" title="Soru 4: Bin(100, 0.5), P(X=50) normal yaklaşım?"} **Cevap:** $\Phi(0.1) - \Phi(-0.1) \approx 0{,}0796$ (gerçek değer 0.0796, mükemmel). ::: ## Egzersizler {#sec-egzersizler} **Egzersiz 1.** $\sigma^2 = 9$, SD $\le 0{,}1$ için $n$? Hatayı yarıya $n$ kaç kat? **Egzersiz 2.** Bern(0.5), $P(|\bar{X}_n - 0{,}5| > 0{,}05) \le 0{,}01$ için $n$ (Chebyshev). **Egzersiz 3.** Exp(1) iid, $n = 100$. $\bar{X}_{100}$ yaklaşık dağılımı? **Egzersiz 4.** Bin(400, 0.5), $P(X \ge 220)$ normal yaklaşım + süreklilik. **Egzersiz 5.** *(Python — MLT gözlemle)* ```{python} #| label: ex-mlt #| code-fold: false import numpy as np from scipy import stats rng = np.random.default_rng(0) trials = 50_000 for n in [1, 10, 100]: means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1) skew = stats.skew(means) print(f"n={n:3d}: emp SD={means.std():.4f} teorik σ/√n={1/np.sqrt(n):.4f} çarpıklık={skew:+.3f} (→ 0)") ``` ## Sonraki Ders İçin Hazırlık {#sec-sonraki} **Ders 30: Ki-Kare, Student-t, MVN** — Normal'in türevleri. ::: {.callout-warning title="Ders 30 öncesi yapılacak"} - Egzersizleri çöz. - $\sqrt{n}$ ölçeği + binom normal yaklaşımını içselleştir. ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-sheet} | Kavram | Tanım | Not | |--------|-------|------| | **$\bar{X}_n$** | $\frac{1}{n}\sum X_j$ | RV | | **Var($\bar{X}_n$)** | $\sigma^2/n$ | SD = $\sigma/\sqrt{n}$ | | **Güçlü BSY** | $\bar{X}_n \to \mu$ (ols 1) | Noktasal | | **Zayıf BSY** | $P \to 0$ | Olasılıkta; Chebyshev | | **MLT** | $\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)$ | Dağılımda | | **Binom normal** | $\Phi$ farkı | $p \approx 1/2$ | | **Süreklilik düzeltmesi** | $P(X=a) \approx P(a \pm 0.5)$ | Kesikli→sürekli | ## ML Bağlantıları Özeti {#sec-ml-baglantilar} ::: {.callout-tip title="7 köprü"} 1. **$1/\sqrt{n}$ ölçeği** → Monte Carlo, minibatch. 2. **Xavier/He init** $1/\sqrt{n_{in}}$. 3. **Attention** $1/\sqrt{d}$. 4. **Tutarlılık** (consistency). 5. **Ensemble/bagging** $\sigma^2/n$. 6. **Gauss her yerde** → diffusion, VAE. 7. **iid kırılması** → distribution shift, RL. ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} **Yeterince çok şey topla, gerçeğe git ($\mu$, BSY) + çana dön ($N(0,1)$, MLT)**, dağılım ne olursa olsun. **$1/\sqrt{n}$ ölçeği** ML'de her yerde. :::