35  İleriye Bakış (A Look Ahead)

Top Ten, regresyon, Horvitz-Thompson, Basu’nun Fili

NotBölüm bilgisi
  • Blitzstein’in videosu: YouTube — Lecture 34 (≈37 dk)
  • Okuma süresi: ≈18 dk
  • Not: Stat 110’un son dersi. Toparlama + ileriye bakış. Ders 35 (kapsam dışı bonus konuşma) çevrilmedi.

35.1 Bu Derste Ne Var?

  1. Top Ten — 3 tema: rassallık / beklenti / uzun-vade.
  2. Sonrası: çıkarım, regresyon, stokastik süreçler.
  3. Regresyon türetmesi: \(\beta_1 = \text{Cov}(X,Y)/\text{Var}(X)\).
  4. Horvitz-Thompson (IPW): \(\hat{T} = \sum Y_j I_j / p_j\).
  5. Basu’nun Fili: yansız \(\ne\) iyi.
İpucuBuilder Notu — ML Köprüleri
  • Regresyon = en küçük kareler → tüm denetimli öğrenme.
  • IPWnedensel çıkarım (propensity score), off-policy RL (importance sampling).
  • Basu’nun Filibias-variance tradeoff, ridge/lasso düzenlileştirme.
  • Olasılık vs çıkarımgenerative vs discriminative.
  • Koşullama → istatistiğin ruhu, modern ML’in temeli.

35.2 Top Ten: Stat 110’un Özü

3 tema:

(1-4) Rassallık nedir?

  1. Koşullama — istatistiğin ruhu.
  2. Simetri — güçlü ama tehlikeli.
  3. Rastgele değişkenler ve dağılımları.
  4. Hikâyeler (stories) — story proofs.

(5-7) Beklenti hesaplama.

  1. Doğrusallık — bağımlılıkta bile.
  2. Gösterge — favori numara.
  3. LOTUS — vazgeçilmez.

(8-10) Uzun-vade.

  1. BSY.
  2. MLT.
  3. Markov zincirleri — iid’nin bir adım ötesi.
İpucuBuilder Notu — ML Temeli

10 fikir = ML’in olasılıksal temeli. Koşullama → Bayesian/attention; hikâyeler → üretici tasarım; doğrusallık+LOTUS → \(E[L]\) + Monte Carlo; BSY/MLT → SGD + belirsizlik; Markov → MCMC/diffusion/RL.

35.3 Regresyon: \(\beta_1\) Türetmesi

\(Y = \beta_0 + \beta_1 X + \varepsilon\), \(E(\varepsilon | X) = 0\).

İki tarafın \(X\) ile Cov’unu al:

\[ \text{Cov}(Y, X) = \beta_1 \text{Var}(X) + \text{Cov}(\varepsilon, X) \]

\(\text{Cov}(\varepsilon, X) = 0\) ispatı (Adam + bilineni dışarı):

\[ \text{Cov}(\varepsilon, X) = E(\varepsilon X) = E(X \cdot E(\varepsilon | X)) = E(X \cdot 0) = 0 \]

\[ \boxed{\beta_1 = \frac{\text{Cov}(X, Y)}{\text{Var}(X)}} \]

Koşullu beklenti = izdüşüm → en küçük karelerin geometrik temeli.

ÖnemliBuilder Notu — Sinir Ağlarının Son Katmanı

\(\beta_1 = \text{Cov}/\text{Var}\) = en küçük kareler çözümü. “Koşullu beklenti = izdüşüm” görüşü doğrusal regresyondan kernel regresyona, sinir ağlarının son katmanına (öğrenilen özelliklerin hedefe izdüşümü) uzanır.

35.4 Horvitz-Thompson (IPW)

Sonlu nüfus \(Y_1, \ldots, Y_N\) sabit. \(p_j\) = kişi \(j\)’nin dahil olma olasılığı.

Kestirici:

\[ \hat{T} = \sum_{j=1}^N \frac{Y_j}{p_j} I_j \]

Yansız (\(E(I_j) = p_j\) temel köprü):

\[ E(\hat{T}) = \sum \frac{Y_j}{p_j} p_j = \sum Y_j \]

ÖnemliBuilder Notu — IPW Her Yerde

IPW modern ML’in devasa aracı: Nedensel çıkarım (propensity score weighting), off-policy RL (importance sampling), örneklem yanlılığı düzeltme. “Gözlemi olasılığına böl” = Ders 9 gösterge + Adam yasasının doğrudan uygulaması.

35.5 Basu’nun Fili: Yansız ≠ İyi

50 fil, sahip “ortalama görünen” Stampy’yi tartmak istiyor. \(p_{\text{Stampy}} = 0{,}99\), kalan 49 file \(0{,}01\) paylaştırılır.

Sonuç: %99 olasılıkla sadece Stampy çıkar → \(\hat{T} = Y_{\text{Stampy}} \cdot 100/99 \approx\) bir filin ağırlığı! 50 fil için berbat. Yansız ama varyans felaket.

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)
Y = np.array([100.0, 100, 100, 100, 5000])  # son "fil" ağır
true_total = Y.sum()
N = len(Y)
trials = 30_000

fig, ax = plt.subplots(figsize=(11, 5))
for name, p, c in [
    ("Eşit p=0.4", np.full(N, 0.4), '#15803d'),
    ("Çarpık (son fil p=0.95)", np.array([0.05, 0.05, 0.05, 0.05, 0.95]), '#A51C30'),
]:
    estimates = []
    for _ in range(trials):
        incl = rng.random(N) < p
        T_hat = np.sum(Y[incl] / p[incl]) if incl.any() else 0
        estimates.append(T_hat)
    estimates = np.array(estimates)
    ax.hist(estimates, bins=80, alpha=0.6, density=True, color=c,
            label=f'{name}: mean={estimates.mean():.0f} ± {estimates.std():.0f}')

ax.axvline(true_total, color='#1f2937', linestyle='--', linewidth=2.5, label=f'Gerçek = {true_total}')
ax.set_xlabel('$\\hat{T}$ kestirimi', fontsize=12)
ax.set_ylabel('yoğunluk', fontsize=12)
ax.set_title('Basu\'nun Fili: ikisi de yansız — ama çarpık varyans felaket', fontsize=12)
ax.legend(fontsize=11)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
Şekil 35.1
ÖnemliBuilder Notu — Bias-Variance Tradeoff

Basu = ML’in en sinsi dersi: bir metriği (yansızlık) optimize etmek hedefe ulaştırmayabilir. Bias-variance tradeoff — ridge/lasso bilerek yanlılık ekler ama varyansı düşürür. Off-policy RL’de IPW patlar → “clipped/weighted importance sampling” ile evcilleştirilir.

35.6 Sonrası Nereye?

  • Çıkarım (model→veri ile veri→parametre, ML’in iki yarısı).
  • Regresyon / lineer modeller.
  • Stokastik süreçler (Markov’un devamı).
  • R / Python öğren.

“110 is actually a recurrent state in this chain… revisiting the material over and over again is a good thing.” — Blitzstein, 36:18

35.7 Kurs Kapanışı 🎓

Stat 110 tamamlandı! 34 derste olasılığı sıfırdan — sayma + koşullamadan dağılımlar, beklenti, eşitsizlikler, BSY/MLT, Markov zincirleri ve PageRank’a — kurduk.

Karpathy: “Olasılık, makine öğrenmesinin dilidir.” Bu setteki tüm Builder Notları o köprüyü kurdu.

Buradan ileri: çıkarım, regresyon, stokastik süreçler, modern ML — hepsi bu temelin üzerine.

ÖnemliTek bir cümle

Stat 110’un özü koşullamadır; 10 temel fikir “rassallık nedir / beklenti nasıl / uzun-vade ne” diye üçe ayrılır; regresyondan IPW’ye her uygulamada Adam yasası + gösterge + izdüşüm; ama Basu’nun Fili hatırlatır: yansız \(\ne\) iyi, düşünmek gerekir.

35.8 Kontrol Soruları

Cevap: Belirsizlik altında bilgi güncellemenin temel mekanizması — koş. olasılık/beklenti, Bayes, Markov (geçmiş ⊥ gelecek | şimdi). Tüm kursun temasıdır.

Cevap: İki yer: (1) Adam: \(E(\varepsilon) = E(E(\varepsilon|X)) = 0\). (2) \(\text{Cov}(\varepsilon, X) = E(X \cdot E(\varepsilon|X)) = 0\). Hata açıklayıcıya ortogonal = en küçük kareler.

Cevap: Gösterge \(E(I_j) = p_j\). \(E(\hat{T}) = \sum (Y_j/p_j) p_j = \sum Y_j\). Gösterge numarası rassal paydayı sabite çevirir.

Cevap: Yansızlık \(\ne\) iyilik. Varyans kritik. ML karşılığı bias-variance tradeoff — düzenlileştirme, ridge/lasso bilerek yanlılık ekler.

35.9 Egzersizler

Egzersiz 1. \(\beta_0\)’ı \(E(Y), \beta_1, E(X)\) ile bul.

Egzersiz 2. \(E(\varepsilon|X) = 0 \Rightarrow \text{Cov}(\varepsilon, g(X)) = 0\) tüm \(g\) için.

Egzersiz 3. \(Y = (10, 20, 30)\), \(p = (0{,}5, 0{,}5, 1)\). Tüm örneklemler üzerinden \(E(\hat{T})\).

Egzersiz 4. Basu, iki olası değer arası fark? Varyans hakkında ne?

Egzersiz 5. (Python — IPW + Basu)

import numpy as np
rng = np.random.default_rng(0)
Y = np.array([100.0, 100, 100, 100, 5000])
N = len(Y); true_T = Y.sum()

for name, p in [("Eşit p=0.4", np.full(N, 0.4)),
                ("Çarpık (son p=0.95)", np.array([0.05]*4 + [0.95]))]:
    ests = []
    for _ in range(20_000):
        incl = rng.random(N) < p
        T = np.sum(Y[incl] / p[incl]) if incl.any() else 0
        ests.append(T)
    ests = np.array(ests)
    print(f"{name:24s} | gerçek={int(true_T)} ort={ests.mean():.0f} (yansız) std={ests.std():.0f}")

35.10 Anahtar Kavramlar (Cheat Sheet)

Kavram Formül Not
İstatistiğin ruhu Koşullama Her yer
3 tema Rassallık / beklenti / uzun-vade (1-4)/(5-7)/(8-10)
β₁ \(\text{Cov}(X,Y)/\text{Var}(X)\) İzdüşüm
Ortogonallik \(\text{Cov}(\varepsilon, X) = 0\) Adam yasası
Horvitz-Thompson \(\sum Y_j I_j / p_j\) IPW; yansız
Basu Yansız \(\ne\) iyi Bias-variance
Sonrası Çıkarım, regresyon, süreçler R/Python

35.11 ML Bağlantıları Özeti

İpucu6 köprü
  1. Regresyon → tüm denetimli öğrenme; sinir ağı son katmanı.
  2. IPWnedensel çıkarım, off-policy RL, dengesiz veri.
  3. Basubias-variance tradeoff, düzenlileştirme.
  4. Koşullama → Bayesian ML, attention.
  5. Olasılık vs çıkarım → generative vs discriminative.
  6. Stokastik süreçler → RL, diffusion.
ÖnemliTek bir şey alıp gideceksen

Stat 110’un özü koşullamadır. Adam yasası + gösterge + izdüşüm = ML’in olasılıksal motoru. Yansızlık \(\ne\) iyilik (Basu) → bias-variance her yerde. Olasılık makine öğrenmesinin dilidir (Karpathy).


35.12 🎓 Kurs Sonu

34/34 ✅. Stat 110 Türkçe ders notları tamamlandı.

Bu set Blitzstein’in Harvard Stat 110 dersinin Türkçe paralel okumasıdır. Her dersin Builder Notları ML/AI için yapı taşlarını gösterir.

Bundan sonra:

  • stat110.net — strategic practice, kitap (Blitzstein & Hwang 2014).
  • Çıkarım: Stat 111, regresyon: Stat 139, stokastik süreçler: Stat 171.
  • R + Python.

“Tuning is physics, mathematics, and logic — and so is probability.”

Karpathy: “Olasılık, makine öğrenmesinin dilidir.”

Bu setin tüm Builder Notları o dili öğretmek içindi.