import numpy as np
from scipy import stats
rng = np.random.default_rng(0)
trials = 50_000
for n in [1, 10, 100]:
means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
skew = stats.skew(means)
print(f"n={n:3d}: emp SD={means.std():.4f} teorik σ/√n={1/np.sqrt(n):.4f} çarpıklık={skew:+.3f} (→ 0)")30 Büyük Sayılar Yasası ve Merkezi Limit Teoremi
1/√n hata ölçeği; istatistiğin iki büyük teoremi
- Blitzstein’in videosu: YouTube — Lecture 29 (≈51 dk)
- Okuma süresi: ≈24 dk
30.1 Bu Derste Ne Var?
- BSY: \(\bar{X}_n \to \mu\) — nereye (sabit).
- MLT: \(\sqrt{n}(\bar{X}_n - \mu)/\sigma \to N(0, 1)\) — nasıl (şekil + \(\sqrt{n}\) hız).
- Var\((\bar{X}_n) = \sigma^2/n\) — \(1/\sqrt{n}\) hata ölçeği.
- MLT ispatı: MGF + L’Hôpital.
- Binom normal yaklaşım + süreklilik düzeltmesi.
- \(1/\sqrt{n}\) ölçeği → Monte Carlo, minibatch gradyan, A/B test örneklem.
- \(\sigma/\sqrt{n}\) → ensemble/bagging (\(n\) bağımsız model varyansı \(1/n\)).
- \(\sqrt{n_{in}}\) init → Xavier/He ağırlık ilklendirme.
- \(\sqrt{d}\) attention → \(QK^T/\sqrt{d}\) skorları, \(d\) bağımsız terim SD’si.
- MLT → Gauss varsayımı her yerde: diffusion, VAE prior, gürültü modelleri.
- iid kırılması → distribution shift, RL’de policy değişikliği.
30.2 Kurulum
\(X_1, X_2, \ldots\) iid, \(E(X_j) = \mu\), Var\((X_j) = \sigma^2\) (sonlu).
\[ \bar{X}_n = \frac{1}{n}\sum_{j=1}^n X_j \]
Anahtar:
\[ \text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}, \quad \text{SD}(\bar{X}_n) = \frac{\sigma}{\sqrt{n}} \]
30.3 Büyük Sayılar Yasası
Güçlü BSY: \(\bar{X}_n \to \mu\) olasılık 1 ile (noktasal).
Zayıf BSY: Her \(c > 0\) için \(P(|\bar{X}_n - \mu| > c) \to 0\) (olasılıkta).
İspat (Chebyshev, tek satır):
\[ P(|\bar{X}_n - \mu| > c) \le \frac{\text{Var}(\bar{X}_n)}{c^2} = \frac{\sigma^2}{nc^2} \to 0 \]
“This theorem is crucial for science to be possible.” — Blitzstein, 9:59
“Olasılıkta yakınsama” = tahmincinin tutarlılığı. MLE, SGD yakınsaması hep bu dilde. Kumarbazın yanılgısı (“telafi olur”) BSY’yi yanlış yorumlar — BSY swamping ile çalışır, telafi ile değil.
30.4 Merkezi Limit Teoremi
\[ \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1) \]
Şaşırtıcı: sadece sonlu varyans yeter. \(X_j\)’ler ne kadar çirkin olsa da ortalaması normale gider.
Neden \(\sqrt{n}\)? SD\((\bar{X}_n) = \sigma/\sqrt{n}\) → \(\sqrt{n}\) ile çarp → SD sabitlenir.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
rng = np.random.default_rng(0)
trials = 50_000
fig, axes = plt.subplots(1, 3, figsize=(11, 4))
for ax, n in zip(axes, [1, 10, 100]):
means = rng.exponential(scale=1.0, size=(trials, n)).mean(axis=1)
ax.hist(means, bins=60, density=True, color='#A51C30', alpha=0.7, edgecolor='#6B0E1B')
# Normal teori
sd = 1/np.sqrt(n)
x = np.linspace(means.min(), means.max(), 200)
ax.plot(x, norm.pdf(x, 1, sd), color='#1f2937', linewidth=2.5,
label=f'N(1, {sd**2:.3f})')
ax.set_title(f'n = {n}: SD = {sd:.3f}', fontsize=11)
ax.set_xlabel('$\\bar{X}_n$')
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3)
fig.suptitle('MLT: Üstel(1) çarpık dağılım → n büyüdükçe ortalama Normal\'e gider',
fontsize=12, y=1.02)
plt.tight_layout()
plt.show()\(\sqrt{n}\) ölçeği DL’de her yerde: (1) Xavier/He init \(1/\sqrt{n_{in}}\) → katman varyansı sabit; (2) Attention \(QK^T/\sqrt{d}\) → \(d\) bağımsız terim SD’si \(\sqrt{d}\); (3) Layer norm sezgisi. MLT bilmeden bu \(\sqrt{\cdot}\) bölenlerin anlaşılması zor.
30.5 MLT İspatı (MGF + L’Hôpital)
Standartlaştır: \(\mu = 0, \sigma = 1\). \(S_n = \sum X_j\), \(E(e^{tS_n/\sqrt{n}}) = [M(t/\sqrt{n})]^n\).
Log + \(y = 1/\sqrt{n}\):
\[ \lim_{y \to 0} \frac{\ln M(yt)}{y^2}, \quad 0/0 \]
L’Hôpital ×2 + \(M(0) = 1, M'(0) = 0, M''(0) = 1\):
\[ \frac{t}{2} \cdot t \cdot M''(0) = \frac{t^2}{2} \]
Üs al → \(e^{t^2/2}\) = \(N(0, 1)\) MGF’i. ∎
30.6 Binom Normal Yaklaşımı
\(X \sim\) Bin(\(n, p\)): \(E = np\), SD \(= \sqrt{npq}\).
\[ P(a \le X \le b) \approx \Phi\!\left(\frac{b - np}{\sqrt{npq}}\right) - \Phi\!\left(\frac{a - np}{\sqrt{npq}}\right) \]
\(p \approx 1/2\) iyi. Süreklilik düzeltmesi:
\[ P(X = a) \approx P(a - 0{,}5 \le X \le a + 0{,}5) \]
Poisson vs Normal: \(p \to 0\) (nadir) → Poisson; \(p \approx 1/2\) → Normal.
30.7 Bu Dersin Özeti
- BSY: \(\bar{X}_n \to \mu\).
- Var\((\bar{X}_n) = \sigma^2/n\).
- Zayıf BSY: Chebyshev tek satır.
- MLT: dağılımda \(\sqrt{n}\) ölçeği.
- Binom normal + süreklilik düzeltmesi.
Bağımsız özdeş şeyleri ortalarsan, gerçeğe gider (BSY) ve etrafındaki dalgalanma \(1/\sqrt{n}\) ölçeğinde çana dönüşür (MLT) — dağılım ne olursa olsun. Bilim ve istatistik bu iki garanti üzerine kuruludur.
30.8 Kontrol Soruları
Cevap: BSY nereye (sabit \(\mu\)). MLT nasıl (\(\sqrt{n}\) ölçeği + Normal). Farklı yakınsama türleri.
Cevap: \(\sigma^2/n\). Chebyshev → \(\sigma^2/(nc^2) \to 0\).
Cevap: SD\((\bar{X}_n) = \sigma/\sqrt{n}\). \(\sqrt{n}\) ile çarpılırsa SD sabitlenir → dejenere olmayan limit.
Cevap: \(\Phi(0.1) - \Phi(-0.1) \approx 0{,}0796\) (gerçek değer 0.0796, mükemmel).
30.9 Egzersizler
Egzersiz 1. \(\sigma^2 = 9\), SD \(\le 0{,}1\) için \(n\)? Hatayı yarıya \(n\) kaç kat?
Egzersiz 2. Bern(0.5), \(P(|\bar{X}_n - 0{,}5| > 0{,}05) \le 0{,}01\) için \(n\) (Chebyshev).
Egzersiz 3. Exp(1) iid, \(n = 100\). \(\bar{X}_{100}\) yaklaşık dağılımı?
Egzersiz 4. Bin(400, 0.5), \(P(X \ge 220)\) normal yaklaşım + süreklilik.
Egzersiz 5. (Python — MLT gözlemle)
30.10 Sonraki Ders İçin Hazırlık
Ders 30: Ki-Kare, Student-t, MVN — Normal’in türevleri.
- Egzersizleri çöz.
- \(\sqrt{n}\) ölçeği + binom normal yaklaşımını içselleştir.
30.11 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Not |
|---|---|---|
| \(\bar{X}_n\) | \(\frac{1}{n}\sum X_j\) | RV |
| Var(\(\bar{X}_n\)) | \(\sigma^2/n\) | SD = \(\sigma/\sqrt{n}\) |
| Güçlü BSY | \(\bar{X}_n \to \mu\) (ols 1) | Noktasal |
| Zayıf BSY | \(P \to 0\) | Olasılıkta; Chebyshev |
| MLT | \(\sqrt{n}(\bar{X}_n-\mu)/\sigma \xrightarrow{d} N(0,1)\) | Dağılımda |
| Binom normal | \(\Phi\) farkı | \(p \approx 1/2\) |
| Süreklilik düzeltmesi | \(P(X=a) \approx P(a \pm 0.5)\) | Kesikli→sürekli |
30.12 ML Bağlantıları Özeti
- \(1/\sqrt{n}\) ölçeği → Monte Carlo, minibatch.
- Xavier/He init \(1/\sqrt{n_{in}}\).
- Attention \(1/\sqrt{d}\).
- Tutarlılık (consistency).
- Ensemble/bagging \(\sigma^2/n\).
- Gauss her yerde → diffusion, VAE.
- iid kırılması → distribution shift, RL.
Yeterince çok şey topla, gerçeğe git (\(\mu\), BSY) + çana dön (\(N(0,1)\), MLT), dağılım ne olursa olsun. \(1/\sqrt{n}\) ölçeği ML’de her yerde.