30  Büyük Sayılar Yasası ve Merkezi Limit Teoremi

1/√n hata ölçeği; istatistiğin iki büyük teoremi

NotBölüm bilgisi

30.1 Bu Derste Ne Var?

  1. BSY: \(\bar{X}_n \to \mu\)nereye (sabit).
  2. MLT: \(\sqrt{n}(\bar{X}_n - \mu)/\sigma \to N(0, 1)\)nasıl (şekil + \(\sqrt{n}\) hız).
  3. Var\((\bar{X}_n) = \sigma^2/n\)\(1/\sqrt{n}\) hata ölçeği.
  4. MLT ispatı: MGF + L’Hôpital.
  5. Binom normal yaklaşım + süreklilik düzeltmesi.
İpucuBuilder Notu — ML Köprüleri
  • \(1/\sqrt{n}\) ölçeğiMonte Carlo, minibatch gradyan, A/B test örneklem.
  • \(\sigma/\sqrt{n}\)ensemble/bagging (\(n\) bağımsız model varyansı \(1/n\)).
  • \(\sqrt{n_{in}}\) initXavier/He ağırlık ilklendirme.
  • \(\sqrt{d}\) attention\(QK^T/\sqrt{d}\) skorları, \(d\) bağımsız terim SD’si.
  • MLTGauss varsayımı her yerde: diffusion, VAE prior, gürültü modelleri.
  • iid kırılması → distribution shift, RL’de policy değişikliği.

30.2 Kurulum

\(X_1, X_2, \ldots\) iid, \(E(X_j) = \mu\), Var\((X_j) = \sigma^2\) (sonlu).

\[ \bar{X}_n = \frac{1}{n}\sum_{j=1}^n X_j \]

Anahtar:

\[ \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}, \quad \text{SD}(\bar{X}_n) = \frac{\sigma}{\sqrt{n}} \]

30.3 Büyük Sayılar Yasası

Güçlü BSY: \(\bar{X}_n \to \mu\) olasılık 1 ile (noktasal).

Zayıf BSY: Her \(c > 0\) için \(P(|\bar{X}_n - \mu| > c) \to 0\) (olasılıkta).

İspat (Chebyshev, tek satır):

\[ P(|\bar{X}_n - \mu| > c) \le \frac{\text{Var}(\bar{X}_n)}{c^2} = \frac{\sigma^2}{nc^2} \to 0 \]

“This theorem is crucial for science to be possible.” — Blitzstein, 9:59

İpucuBuilder Notu — Tutarlılık (Consistency)

Olasılıkta yakınsama” = tahmincinin tutarlılığı. MLE, SGD yakınsaması hep bu dilde. Kumarbazın yanılgısı (“telafi olur”) BSY’yi yanlış yorumlar — BSY swamping ile çalışır, telafi ile değil.

30.4 Merkezi Limit Teoremi

\[ \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) \]

Şaşırtıcı: sadece sonlu varyans yeter. \(X_j\)’ler ne kadar çirkin olsa da ortalaması normale gider.

Neden \(\sqrt{n}\)? SD\((\bar{X}_n) = \sigma/\sqrt{n}\)\(\sqrt{n}\) ile çarp → SD sabitlenir.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

rng = np.random.default_rng(0)
trials = 50_000

fig, axes = plt.subplots(1, 3, figsize=(11, 4))
for ax, n in zip(axes, [1, 10, 100]):
    means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
    ax.hist(means, bins=60, density=True, color='#A51C30', alpha=0.7, edgecolor='#6B0E1B')
    # Normal teori
    sd = 1/np.sqrt(n)
    x = np.linspace(means.min(), means.max(), 200)
    ax.plot(x, norm.pdf(x, 1, sd), color='#1f2937', linewidth=2.5,
            label=f'N(1, {sd**2:.3f})')
    ax.set_title(f'n = {n}: SD = {sd:.3f}', fontsize=11)
    ax.set_xlabel('$\\bar{X}_n$')
    ax.legend(fontsize=10)
    ax.grid(True, alpha=0.3)

fig.suptitle('MLT: Üstel(1) çarpık dağılım → n büyüdükçe ortalama Normal\'e gider',
             fontsize=12, y=1.02)
plt.tight_layout()
plt.show()
Şekil 30.1
ÖnemliBuilder Notu — \(\sqrt{d}\) Her Yerde

\(\sqrt{n}\) ölçeği DL’de her yerde: (1) Xavier/He init \(1/\sqrt{n_{in}}\) → katman varyansı sabit; (2) Attention \(QK^T/\sqrt{d}\)\(d\) bağımsız terim SD’si \(\sqrt{d}\); (3) Layer norm sezgisi. MLT bilmeden bu \(\sqrt{\cdot}\) bölenlerin anlaşılması zor.

30.5 MLT İspatı (MGF + L’Hôpital)

Standartlaştır: \(\mu = 0, \sigma = 1\). \(S_n = \sum X_j\), \(E(e^{tS_n/\sqrt{n}}) = [M(t/\sqrt{n})]^n\).

Log + \(y = 1/\sqrt{n}\):

\[ \lim_{y \to 0} \frac{\ln M(yt)}{y^2}, \quad 0/0 \]

L’Hôpital ×2 + \(M(0) = 1, M'(0) = 0, M''(0) = 1\):

\[ \frac{t}{2} \cdot t \cdot M''(0) = \frac{t^2}{2} \]

Üs al → \(e^{t^2/2}\) = \(N(0, 1)\) MGF’i. ∎

30.6 Binom Normal Yaklaşımı

\(X \sim\) Bin(\(n, p\)): \(E = np\), SD \(= \sqrt{npq}\).

\[ P(a \le X \le b) \approx \Phi\!\left(\frac{b - np}{\sqrt{npq}}\right) - \Phi\!\left(\frac{a - np}{\sqrt{npq}}\right) \]

\(p \approx 1/2\) iyi. Süreklilik düzeltmesi:

\[ P(X = a) \approx P(a - 0{,}5 \le X \le a + 0{,}5) \]

Poisson vs Normal: \(p \to 0\) (nadir) → Poisson; \(p \approx 1/2\) → Normal.

30.7 Bu Dersin Özeti

  1. BSY: \(\bar{X}_n \to \mu\).
  2. Var\((\bar{X}_n) = \sigma^2/n\).
  3. Zayıf BSY: Chebyshev tek satır.
  4. MLT: dağılımda \(\sqrt{n}\) ölçeği.
  5. Binom normal + süreklilik düzeltmesi.
ÖnemliTek bir cümle

Bağımsız özdeş şeyleri ortalarsan, gerçeğe gider (BSY) ve etrafındaki dalgalanma \(1/\sqrt{n}\) ölçeğinde çana dönüşür (MLT) — dağılım ne olursa olsun. Bilim ve istatistik bu iki garanti üzerine kuruludur.

30.8 Kontrol Soruları

Cevap: BSY nereye (sabit \(\mu\)). MLT nasıl (\(\sqrt{n}\) ölçeği + Normal). Farklı yakınsama türleri.

Cevap: \(\sigma^2/n\). Chebyshev → \(\sigma^2/(nc^2) \to 0\).

Cevap: SD\((\bar{X}_n) = \sigma/\sqrt{n}\). \(\sqrt{n}\) ile çarpılırsa SD sabitlenir → dejenere olmayan limit.

Cevap: \(\Phi(0.1) - \Phi(-0.1) \approx 0{,}0796\) (gerçek değer 0.0796, mükemmel).

30.9 Egzersizler

Egzersiz 1. \(\sigma^2 = 9\), SD \(\le 0{,}1\) için \(n\)? Hatayı yarıya \(n\) kaç kat?

Egzersiz 2. Bern(0.5), \(P(|\bar{X}_n - 0{,}5| > 0{,}05) \le 0{,}01\) için \(n\) (Chebyshev).

Egzersiz 3. Exp(1) iid, \(n = 100\). \(\bar{X}_{100}\) yaklaşık dağılımı?

Egzersiz 4. Bin(400, 0.5), \(P(X \ge 220)\) normal yaklaşım + süreklilik.

Egzersiz 5. (Python — MLT gözlemle)

import numpy as np
from scipy import stats

rng = np.random.default_rng(0)
trials = 50_000

for n in [1, 10, 100]:
    means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
    skew = stats.skew(means)
    print(f"n={n:3d}: emp SD={means.std():.4f}  teorik σ/√n={1/np.sqrt(n):.4f}  çarpıklık={skew:+.3f} (→ 0)")

30.10 Sonraki Ders İçin Hazırlık

Ders 30: Ki-Kare, Student-t, MVN — Normal’in türevleri.

UyarıDers 30 öncesi yapılacak
  • Egzersizleri çöz.
  • \(\sqrt{n}\) ölçeği + binom normal yaklaşımını içselleştir.

30.11 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Not
\(\bar{X}_n\) \(\frac{1}{n}\sum X_j\) RV
Var(\(\bar{X}_n\)) \(\sigma^2/n\) SD = \(\sigma/\sqrt{n}\)
Güçlü BSY \(\bar{X}_n \to \mu\) (ols 1) Noktasal
Zayıf BSY \(P \to 0\) Olasılıkta; Chebyshev
MLT \(\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)\) Dağılımda
Binom normal \(\Phi\) farkı \(p \approx 1/2\)
Süreklilik düzeltmesi \(P(X=a) \approx P(a \pm 0.5)\) Kesikli→sürekli

30.12 ML Bağlantıları Özeti

İpucu7 köprü
  1. \(1/\sqrt{n}\) ölçeği → Monte Carlo, minibatch.
  2. Xavier/He init \(1/\sqrt{n_{in}}\).
  3. Attention \(1/\sqrt{d}\).
  4. Tutarlılık (consistency).
  5. Ensemble/bagging \(\sigma^2/n\).
  6. Gauss her yerde → diffusion, VAE.
  7. iid kırılması → distribution shift, RL.
ÖnemliTek bir şey alıp gideceksen

Yeterince çok şey topla, gerçeğe git (\(\mu\), BSY) + çana dön (\(N(0,1)\), MLT), dağılım ne olursa olsun. \(1/\sqrt{n}\) ölçeği ML’de her yerde.