import numpy as np
rng = np.random.default_rng(0)
Y = np.array([100.0, 100, 100, 100, 5000])
N = len(Y); true_T = Y.sum()
for name, p in [("Eşit p=0.4", np.full(N, 0.4)),
("Çarpık (son p=0.95)", np.array([0.05]*4 + [0.95]))]:
ests = []
for _ in range(20_000):
incl = rng.random(N) < p
T = np.sum(Y[incl] / p[incl]) if incl.any() else 0
ests.append(T)
ests = np.array(ests)
print(f"{name:24s} | gerçek={int(true_T)} ort={ests.mean():.0f} (yansız) std={ests.std():.0f}")35 İleriye Bakış (A Look Ahead)
Top Ten, regresyon, Horvitz-Thompson, Basu’nun Fili
- Blitzstein’in videosu: YouTube — Lecture 34 (≈37 dk)
- Okuma süresi: ≈18 dk
- Not: Stat 110’un son dersi. Toparlama + ileriye bakış. Ders 35 (kapsam dışı bonus konuşma) çevrilmedi.
35.1 Bu Derste Ne Var?
- Top Ten — 3 tema: rassallık / beklenti / uzun-vade.
- Sonrası: çıkarım, regresyon, stokastik süreçler.
- Regresyon türetmesi: \(\beta_1 = \text{Cov}(X,Y)/\text{Var}(X)\).
- Horvitz-Thompson (IPW): \(\hat{T} = \sum Y_j I_j / p_j\).
- Basu’nun Fili: yansız \(\ne\) iyi.
- Regresyon = en küçük kareler → tüm denetimli öğrenme.
- IPW → nedensel çıkarım (propensity score), off-policy RL (importance sampling).
- Basu’nun Fili → bias-variance tradeoff, ridge/lasso düzenlileştirme.
- Olasılık vs çıkarım → generative vs discriminative.
- Koşullama → istatistiğin ruhu, modern ML’in temeli.
35.2 Top Ten: Stat 110’un Özü
3 tema:
(1-4) Rassallık nedir?
- Koşullama — istatistiğin ruhu.
- Simetri — güçlü ama tehlikeli.
- Rastgele değişkenler ve dağılımları.
- Hikâyeler (stories) — story proofs.
(5-7) Beklenti hesaplama.
- Doğrusallık — bağımlılıkta bile.
- Gösterge — favori numara.
- LOTUS — vazgeçilmez.
(8-10) Uzun-vade.
- BSY.
- MLT.
- Markov zincirleri — iid’nin bir adım ötesi.
10 fikir = ML’in olasılıksal temeli. Koşullama → Bayesian/attention; hikâyeler → üretici tasarım; doğrusallık+LOTUS → \(E[L]\) + Monte Carlo; BSY/MLT → SGD + belirsizlik; Markov → MCMC/diffusion/RL.
35.3 Regresyon: \(\beta_1\) Türetmesi
\(Y = \beta_0 + \beta_1 X + \varepsilon\), \(E(\varepsilon | X) = 0\).
İki tarafın \(X\) ile Cov’unu al:
\[ \text{Cov}(Y, X) = \beta_1 \text{Var}(X) + \text{Cov}(\varepsilon, X) \]
\(\text{Cov}(\varepsilon, X) = 0\) ispatı (Adam + bilineni dışarı):
\[ \text{Cov}(\varepsilon, X) = E(\varepsilon X) = E(X \cdot E(\varepsilon | X)) = E(X \cdot 0) = 0 \]
\[ \boxed{\beta_1 = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}} \]
Koşullu beklenti = izdüşüm → en küçük karelerin geometrik temeli.
\(\beta_1 = \text{Cov}/\text{Var}\) = en küçük kareler çözümü. “Koşullu beklenti = izdüşüm” görüşü doğrusal regresyondan kernel regresyona, sinir ağlarının son katmanına (öğrenilen özelliklerin hedefe izdüşümü) uzanır.
35.4 Horvitz-Thompson (IPW)
Sonlu nüfus \(Y_1, \ldots, Y_N\) sabit. \(p_j\) = kişi \(j\)’nin dahil olma olasılığı.
Kestirici:
\[ \hat{T} = \sum_{j=1}^N \frac{Y_j}{p_j} I_j \]
Yansız (\(E(I_j) = p_j\) temel köprü):
\[ E(\hat{T}) = \sum \frac{Y_j}{p_j} p_j = \sum Y_j \]
IPW modern ML’in devasa aracı: Nedensel çıkarım (propensity score weighting), off-policy RL (importance sampling), örneklem yanlılığı düzeltme. “Gözlemi olasılığına böl” = Ders 9 gösterge + Adam yasasının doğrudan uygulaması.
35.5 Basu’nun Fili: Yansız ≠ İyi
50 fil, sahip “ortalama görünen” Stampy’yi tartmak istiyor. \(p_{\text{Stampy}} = 0{,}99\), kalan 49 file \(0{,}01\) paylaştırılır.
Sonuç: %99 olasılıkla sadece Stampy çıkar → \(\hat{T} = Y_{\text{Stampy}} \cdot 100/99 \approx\) bir filin ağırlığı! 50 fil için berbat. Yansız ama varyans felaket.
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
Y = np.array([100.0, 100, 100, 100, 5000]) # son "fil" ağır
true_total = Y.sum()
N = len(Y)
trials = 30_000
fig, ax = plt.subplots(figsize=(11, 5))
for name, p, c in [
("Eşit p=0.4", np.full(N, 0.4), '#15803d'),
("Çarpık (son fil p=0.95)", np.array([0.05, 0.05, 0.05, 0.05, 0.95]), '#A51C30'),
]:
estimates = []
for _ in range(trials):
incl = rng.random(N) < p
T_hat = np.sum(Y[incl] / p[incl]) if incl.any() else 0
estimates.append(T_hat)
estimates = np.array(estimates)
ax.hist(estimates, bins=80, alpha=0.6, density=True, color=c,
label=f'{name}: mean={estimates.mean():.0f} ± {estimates.std():.0f}')
ax.axvline(true_total, color='#1f2937', linestyle='--', linewidth=2.5, label=f'Gerçek = {true_total}')
ax.set_xlabel('$\\hat{T}$ kestirimi', fontsize=12)
ax.set_ylabel('yoğunluk', fontsize=12)
ax.set_title('Basu\'nun Fili: ikisi de yansız — ama çarpık varyans felaket', fontsize=12)
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()Basu = ML’in en sinsi dersi: bir metriği (yansızlık) optimize etmek hedefe ulaştırmayabilir. Bias-variance tradeoff — ridge/lasso bilerek yanlılık ekler ama varyansı düşürür. Off-policy RL’de IPW patlar → “clipped/weighted importance sampling” ile evcilleştirilir.
35.6 Sonrası Nereye?
- Çıkarım (model→veri ile veri→parametre, ML’in iki yarısı).
- Regresyon / lineer modeller.
- Stokastik süreçler (Markov’un devamı).
- R / Python öğren.
“110 is actually a recurrent state in this chain… revisiting the material over and over again is a good thing.” — Blitzstein, 36:18
35.7 Kurs Kapanışı 🎓
Stat 110 tamamlandı! 34 derste olasılığı sıfırdan — sayma + koşullamadan dağılımlar, beklenti, eşitsizlikler, BSY/MLT, Markov zincirleri ve PageRank’a — kurduk.
Karpathy: “Olasılık, makine öğrenmesinin dilidir.” Bu setteki tüm Builder Notları o köprüyü kurdu.
Buradan ileri: çıkarım, regresyon, stokastik süreçler, modern ML — hepsi bu temelin üzerine.
Stat 110’un özü koşullamadır; 10 temel fikir “rassallık nedir / beklenti nasıl / uzun-vade ne” diye üçe ayrılır; regresyondan IPW’ye her uygulamada Adam yasası + gösterge + izdüşüm; ama Basu’nun Fili hatırlatır: yansız \(\ne\) iyi, düşünmek gerekir.
35.8 Kontrol Soruları
Cevap: Belirsizlik altında bilgi güncellemenin temel mekanizması — koş. olasılık/beklenti, Bayes, Markov (geçmiş ⊥ gelecek | şimdi). Tüm kursun temasıdır.
Cevap: İki yer: (1) Adam: \(E(\varepsilon) = E(E(\varepsilon|X)) = 0\). (2) \(\text{Cov}(\varepsilon, X) = E(X \cdot E(\varepsilon|X)) = 0\). Hata açıklayıcıya ortogonal = en küçük kareler.
Cevap: Gösterge \(E(I_j) = p_j\). \(E(\hat{T}) = \sum (Y_j/p_j) p_j = \sum Y_j\). Gösterge numarası rassal paydayı sabite çevirir.
Cevap: Yansızlık \(\ne\) iyilik. Varyans kritik. ML karşılığı bias-variance tradeoff — düzenlileştirme, ridge/lasso bilerek yanlılık ekler.
35.9 Egzersizler
Egzersiz 1. \(\beta_0\)’ı \(E(Y), \beta_1, E(X)\) ile bul.
Egzersiz 2. \(E(\varepsilon|X) = 0 \Rightarrow \text{Cov}(\varepsilon, g(X)) = 0\) tüm \(g\) için.
Egzersiz 3. \(Y = (10, 20, 30)\), \(p = (0{,}5, 0{,}5, 1)\). Tüm örneklemler üzerinden \(E(\hat{T})\).
Egzersiz 4. Basu, iki olası değer arası fark? Varyans hakkında ne?
Egzersiz 5. (Python — IPW + Basu)
35.10 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Formül | Not |
|---|---|---|
| İstatistiğin ruhu | Koşullama | Her yer |
| 3 tema | Rassallık / beklenti / uzun-vade | (1-4)/(5-7)/(8-10) |
| β₁ | \(\text{Cov}(X,Y)/\text{Var}(X)\) | İzdüşüm |
| Ortogonallik | \(\text{Cov}(\varepsilon, X) = 0\) | Adam yasası |
| Horvitz-Thompson | \(\sum Y_j I_j / p_j\) | IPW; yansız |
| Basu | Yansız \(\ne\) iyi | Bias-variance |
| Sonrası | Çıkarım, regresyon, süreçler | R/Python |
35.11 ML Bağlantıları Özeti
- Regresyon → tüm denetimli öğrenme; sinir ağı son katmanı.
- IPW → nedensel çıkarım, off-policy RL, dengesiz veri.
- Basu → bias-variance tradeoff, düzenlileştirme.
- Koşullama → Bayesian ML, attention.
- Olasılık vs çıkarım → generative vs discriminative.
- Stokastik süreçler → RL, diffusion.
Stat 110’un özü koşullamadır. Adam yasası + gösterge + izdüşüm = ML’in olasılıksal motoru. Yansızlık \(\ne\) iyilik (Basu) → bias-variance her yerde. Olasılık makine öğrenmesinin dilidir (Karpathy).
35.12 🎓 Kurs Sonu
34/34 ✅. Stat 110 Türkçe ders notları tamamlandı.
Bu set Blitzstein’in Harvard Stat 110 dersinin Türkçe paralel okumasıdır. Her dersin Builder Notları ML/AI için yapı taşlarını gösterir.
Bundan sonra:
- stat110.net — strategic practice, kitap (Blitzstein & Hwang 2014).
- Çıkarım: Stat 111, regresyon: Stat 139, stokastik süreçler: Stat 171.
- R + Python.
“Tuning is physics, mathematics, and logic — and so is probability.”
Karpathy: “Olasılık, makine öğrenmesinin dilidir.”
Bu setin tüm Builder Notları o dili öğretmek içindi.