11  Beklentiye Devam

Doğrusallık ispatı, negatif binom, FS, St. Petersburg, Jensen habercisi

NotBölüm bilgisi

11.1 Bu Derste Ne Var?

Beklentiyi derinleştiriyoruz:

  1. Doğrusallığın ispatı — sonuçlar üzerinden toplam.
  2. Negatif binom (\(r\) başarıya kadar) ve first success (\(1/p\)).
  3. Putnam yerel maksimum — indicator + simetriyle tek satır.
  4. St. Petersburg paradoksu — sonsuz beklenti; ve \(E[g(X)] \ne g(E[X])\) uyarısı (Jensen habercisi).
İpucuBuilder Notu — ML Köprüleri
  • Negatif binom = aşırı-dağınık sayım modeli; varyans > ortalama olduğunda Poisson yerine NB regresyon.
  • 1/p = rejection sampling’de beklenen deneme = 1/kabul oranı.
  • St. Petersburg = beklenen değer sonsuz/yanıltıcı olabilir → sınırlı fayda, Kelly kriteri, risk-duyarlılık.
  • \(E[g(X)] \ne g(E[X])\) = Jensen eşitsizliği — ELBO, log-sum-exp; “E’yi içeri taşıma” hatasının kökü.

11.2 Doğrusallığın İspatı

İki yazım: gruplu (değerler üzerinden) ve grupsuz (sonuçlar üzerinden):

\[ E(X) = \sum_x x\,P(X=x) = \sum_s X(s)\,P(s) \]

Grupsuzu kullanarak \(T = X + Y\):

\[ E(X+Y) = \sum_s (X(s)+Y(s))P(s) = \sum_s X(s)P(s) + \sum_s Y(s)P(s) = E(X)+E(Y) \]

Her şey aynı \(s\) üzerinden toplandı — bağımlılık hiç devreye girmedi. ∎

İpucuBuilder Notu — Monte Carlo’nun Temeli

“Sonuçlar üzerinden toplam” görüşü Monte Carlo’nun temelidir: \(E(X)\)’i, örneklenen sonuçlardaki \(X(s)\) değerlerinin ortalamasıyla kestir. Doğrusallığın bağımlılıktan bağımsız olması, derin ağlarda korelasyonlu gradyan beklentilerini bile rahatça toplamamızı sağlar.

11.3 Negatif Binom ve First Success

Negatif binom(\(r, p\)): ne negatif ne binom. Hikâye: \(r\). başarıdan önceki başarısızlık sayısı (geometrik = \(r = 1\) özel hâli).

“negative binomial is actually non-negative and it’s not a binomial.” — Blitzstein, 15:00

\[ P(X=n) = \binom{n+r-1}{r-1}\, p^r\,(1-p)^n \]

Beklenti: \(r\) bağımsız Geometrik(\(p\)) toplamı → doğrusallıkla

\[ E(X) = r \cdot \frac{q}{p} \]

First Success FS(\(p\)): başarıyı dahil eden ilk başarı zamanı. \(X \sim \text{FS}(p) \Rightarrow X - 1 \sim \text{Geometrik}(p)\).

\[ E(X) = \frac{1}{p} \]

Çok sezgisel: \(p = 1/10\) ise ortalama \(10\) deneme.

İpucuBuilder Notu — Rejection Sampling Maliyeti

\(1/p\) = ilk başarıya kadar beklenen deneme = rejection sampling’in maliyeti: kabul oranı \(p\) ise, bir kabul edilen örnek için ortalama \(1/p\) deneme. Aynı sezgi retry mantığı ve NLP’de aşırı-dağınık kelime sayımlarında (NB regresyon) karşına çıkar.

11.4 Putnam Yerel Maksimumlar

\(1\ldots n\) permütasyonunda yerel maksimum sayısının beklentisi?

Gösterge \(I_j\) = \(j\). konum yerel maksimum. Sayı \(= \sum I_j\). Doğrusallık + bridge + simetri:

  • İç konumlar (\(n-2\) tane): üçlü içinde en büyük ortada → \(P = 1/3\) (1/4 değil — komşu karşılaştırmaları bağımlı).
  • Uç konumlar (2 tane): tek komşu → \(P = 1/2\).

\[ E = (n-2) \cdot \frac{1}{3} + 2 \cdot \frac{1}{2} = \frac{n+1}{3} \]

“1/3, 1/4 değil.” — Blitzstein, 36:07

İpucuBuilder Notu — Indicator + Simetri

“Indicator + simetri” bağımlılık olsa bile çalışır — sıralama istatistikleri ve rekor sayısı problemlerinin standart yöntemi (bir dizide beklenen rekor sayısı \(\approx \ln n\)).

11.5 St. Petersburg Paradoksu

Adil parayı ilk tura gelene kadar at; ödül \(2^X\) dolar (\(X \sim \text{FS}(1/2)\)).

\[ E(2^X) = \sum_{k=1}^{\infty} 2^k \cdot \frac{1}{2^k} = \sum_{k=1}^{\infty} 1 = \infty \]

Beklenen değer sonsuz. Ama kimse $20-100’den fazla ödemez. Çözüm: ödülü trilyonla (\(2^{40}\)) sınırla → toplam \(\approx \$40\).

import numpy as np
import matplotlib.pyplot as plt

K_max = np.arange(1, 60)
beklentiler = [sum(min(2**k, 2**Kmax) / (2**k) for k in range(1, Kmax + 10))
               for Kmax in K_max]

# Daha basit: E[min(2^X, 2^Kmax)] ≈ Kmax
basit = [Kmax for Kmax in K_max]

fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(K_max, basit, 'o-', color='#A51C30', linewidth=2.2, markersize=5,
        label=r'Ödül = min($2^X$, $2^K$)')
ax.set_xlabel('Üst sınır kuvveti K (ödül $\\leq 2^K$)', fontsize=12)
ax.set_ylabel('Beklenen ödül (\\$)', fontsize=12)
ax.set_title('St. Petersburg: sınırsız E = ∞, sınırlı ödülde E ≈ K',
             fontsize=12)

# Pratik noktalar
for Kp, etiket in [(20, '\\$1M sınır → ~\\$20'), (40, 'Trilyon sınır → ~\\$40')]:
    ax.axvline(Kp, color='#DD6B20', linestyle='--', alpha=0.6)
    ax.text(Kp + 1, Kp - 5, etiket, fontsize=11, color='#6B0E1B', weight='bold')

ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
Şekil 11.1
ÖnemliBuilder Notu — Reward Hacking ve Kelly

St. Petersburg, beklenen değerin tek başına yanıltıcı olabileceğinin uyarısı: nadir ama devasa ödüller ortalamayı sonsuza taşır. ML/RL karşılığı: sınırlı fayda, Kelly kriteri (log-servet), kuantil-temelli hedef. Ağır kuyruklu ödüllerde ortalama kötü bir özettir — sınırsız hedefler reward hacking’e davetiyedir.

11.6 Kritik Ders: \(E[g(X)] \ne g(E[X])\)

St. Petersburg gizli uyarı: E’yi doğrusal olmayan fonksiyonun içine taşıyamazsın. \(X \sim \text{FS}(1/2)\) için \(E(X) = 2\) idi. Karşılaştır:

\[ E(2^X) = \infty \qquad \ne \qquad 2^{E(X)} = 2^2 = 4 \]

Dünyalar kadar fark. Yalnızca doğrusallık güvenli. Genel olarak dışbükey \(g\) için:

\[ E[g(X)] \ge g(E[X]) \qquad \text{(Jensen)} \]

ÖnemliBuilder Notu — ELBO ve Log-Sum-Exp

\(E[g(X)] \ne g(E[X])\), ML’deki en sık olasılıksal hatanın kökü (“E’yi içeri taşıma”). \(E[\log p] \ne \log E[p]\) olduğu için ELBO vardır: \(\log E[\cdot]\) hesaplanamadığından onun bir alt sınırını (Jensen ile) optimize ederiz. Aynı olgu log-sum-exp, cross-entropy ve “log-uzayda ortalama \(\ne\) ortalamanın logu” durumlarında karşına çıkar. E’yi asla doğrusal-olmayanın içine sokma.

11.7 Bu Dersin Özeti

  1. Doğrusallık ispatı: \(E(X) = \sum_s X(s) P(s)\); bağımlılık hiç gerekmez.
  2. Negatif binom(\(r, p\)): \(r\). başarıdan önce başarısızlık; \(E = rq/p\).
  3. FS(\(p\)): başarı dahil ilk-başarı; \(E = 1/p\).
  4. Putnam: \(E = (n+1)/3\), indicator + simetri.
  5. St. Petersburg: \(E(2^X) = \infty\), ama sınırlı ödül makul.
  6. \(E[g(X)] \ne g(E[X])\): yalnız doğrusallık güvenli; Jensen habercisi.
ÖnemliTek bir cümle

Beklenti sonuçlar üzerinden bir toplamdır; doğrusallık bağımlılıktan bağımsızdır — ama beklentiyi doğrusal olmayan bir fonksiyonun içine taşıyamazsın (\(E[g(X)] \ne g(E[X])\)), ve sonsuz/ağır kuyruklu beklentiler tek başına aldatıcıdır.

11.8 Kontrol Soruları

Cevap: Negatif Binom(\(r=3, p=0{,}8\)). \(E = rq/p = 3 \cdot 0{,}25 = \mathbf{0{,}75}\).

Cevap: FS(\(p = 1/6\)). \(E = 1/p = \mathbf{6}\).

Cevap: \(E[g(X)] \ne g(E[X])\) (Jensen). \(\log\) içbükey → \(E[\log p] \le \log E[p]\). \(\log E[p]\) latent-değişkenli modellerde hesaplanamaz (integral logun içinde); \(E[\log p]\) örneklenebilir. ELBO = \(\log E[p]\)’nin Jensen alt sınırı.

Cevap: St. Petersburg gibi: nadir devasa ödüller ortalamayı şişirir, ajan onu kovalayıp reward hacking yapabilir. Çözüm: ödül clip, log-fayda (Kelly), kuantil/medyan, risk-duyarlı hedef.

11.9 Egzersizler

Egzersiz 1. %10 kusurlu, 2. kusura kadar beklenen kusursuz? (NB, \(r = 2, p = 0{,}1\).)

Egzersiz 2. \(1\ldots 10\) permütasyonunda beklenen yerel maksimum?

Egzersiz 3. Ödül \(3^X\) olsaydı (\(X \sim\) FS, \(p=1/2\)). \(E\) sonlu mu? (İpucu: \(\sum (3/2)^k\).)

Egzersiz 4. (Python — NB beklenti)

import random
random.seed(0)

def neg_binom(r, p):
    basari = basarisiz = 0
    while basari < r:
        if random.random() < p:
            basari += 1
        else:
            basarisiz += 1
    return basarisiz

r, p, N = 3, 0.4, 200_000
ort = sum(neg_binom(r, p) for _ in range(N)) / N
print(f"simülasyon: {ort:.3f}   formül rq/p: {r * (1-p)/p:.3f}")

Egzersiz 5. (Sonraki ders) Bin(\(n, p\))’de \(n \to \infty\), \(p \to 0\), \(np = \lambda\) sabit. PMF neye yaklaşır? (Ders 11: Poisson = nadir olaylar limiti.)

11.10 Sonraki Ders İçin Hazırlık

Ders 11: Poisson Dağılımı — nadir olayların dağılımı; binom limiti; PMF + beklenti + toplama.

UyarıDers 11 öncesi yapılacak
  • Egzersizleri çöz.
  • “Doğrusallık + indicator” ve “\(E[g(X)] \ne g(E[X])\)” reflekslerini pekiştir.
  • Ana cümleyi tekrar oku: “Beklenti sonuçlar üzerinden bir toplamdır…”

11.11 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Blitzstein’de
Doğrusallık ispatı \(E(X) = \sum_s X(s) P(s)\) 7m07
Negatif binom(\(r, p\)) \(\binom{n+r-1}{r-1} p^r q^n\); \(r\). başarı öncesi 14m51
NB beklenti \(rq/p\) 24m47
FS(\(p\)) Başarı dahil ilk-başarı; \(E = 1/p\) 26m51
Putnam \(E = (n+1)/3\) 33m35
1/3 değil 1/4 Karşılaştırmalar bağımlı 36m07
St. Petersburg \(E(2^X) = \infty\); sınırlıda makul 39m15
\(E[g(X)] \ne g(E[X])\) Yalnız doğrusallık güvenli; Jensen 49m55

11.12 ML Bağlantıları Özeti

İpucu6 köprü
  1. Doğrusallık (sonuçlar) → Monte Carlo; korelasyonlu gradyan beklentileri.
  2. Negatif binom → aşırı-dağınık sayım; NB regresyon.
  3. First success / \(1/p\)rejection sampling maliyeti, retry.
  4. Indicator + simetri → beklenen sayım; rekor istatistikleri (\(\approx \ln n\)).
  5. St. Petersburg → sınırlı fayda, Kelly, reward hacking riski.
  6. \(E[g(X)] \ne g(E[X])\)Jensen, ELBO, log-sum-exp.
ÖnemliTek bir şey alıp gideceksen

Beklenti sonuçlar üzerinden bir toplam → doğrusallık bağımlılığa aldırmaz. Ama beklentiyi doğrusal olmayan bir fonksiyonun içine taşıyamazsın (Jensen), ve sonsuz/ağır kuyruklu beklentiler tek başına aldatıcıdır.