16  Ara Sınav İncelemesi

Kupon toplayıcı, logit, simetri, Poisson→Üstel

NotBölüm bilgisi

16.1 Bu Derste Ne Var?

Altı problem:

  1. Kupon toplayıcı (\(n H_n \approx n \ln n\)).
  2. Uniform’un evrenselliği — geometrik sezgi.
  3. Lojistik dağılım — logit ile örnekleme.
  4. Simetri + doğrusallık\(E(X/(X+Y+Z)) = 1/3\).
  5. LOTUS tuzağı — örüntü, isim değil.
  6. Story proof + Poisson → Üstel — sürekli bekleme.
İpucuBuilder Notu — ML Köprüleri
  • Kupon toplayıcı (\(n \ln n\)) → keşif/kapsama, örneklem karmaşıklığı.
  • Logit / sigmoidlogistic regression, sınıflandırma başlığı.
  • Simetri (exchangeability) → i.i.d.’de eşit katkı (Shapley benzeri).
  • Poisson → Üstel → bekleme süreleri, kuyruk teorisi, Poisson süreci.

16.2 Kupon Toplayıcı

\(n\) farklı kupon. Tam seti toplama süresi \(T\). Parçala:

\[ T = T_1 + T_2 + \ldots + T_n \]

\(T_j\) = \((j-1)\). yeni’den \(j\). yeni’ye kadar. \(T_j - 1 \sim \text{Geom}((n-j+1)/n)\), \(E(T_j) = n/(n-j+1)\):

\[ E(T) = \sum_{j=1}^{n} \frac{n}{n-j+1} = n \sum_{k=1}^{n} \frac{1}{k} = n H_n \approx n \ln n \]

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)

def collect(n):
    seen, t = set(), 0
    while len(seen) < n:
        seen.add(rng.integers(n))
        t += 1
    return t

ns = [5, 10, 20, 30, 50, 75, 100]
teorik = [n * sum(1/k for k in range(1, n+1)) for n in ns]
sim = [np.mean([collect(n) for _ in range(2000)]) for n in ns]
n_lnn = [n * np.log(n) for n in ns]

fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(ns, teorik, 'o-', color='#A51C30', linewidth=2.5, markersize=10, label='$n H_n$ (teori)')
ax.plot(ns, sim, 's--', color='#DD6B20', linewidth=2, markersize=8, label='Simülasyon')
ax.plot(ns, n_lnn, '^:', color='#2C5282', linewidth=2, markersize=8, label='$n \\ln n$ (asimptotik)')
ax.set_xlabel('n (kupon sayısı)', fontsize=12)
ax.set_ylabel('Beklenen toplama süresi', fontsize=12)
ax.set_title('Kupon toplayıcı: $n H_n \\approx n \\ln n$ büyümesi',
             fontsize=12)
ax.legend(loc='upper left', fontsize=11)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
Şekil 16.1
İpucuBuilder Notu — Keşif Maliyeti

Kupon toplayıcı ML/CS’de örneklem karmaşıklığının klasik modeli: tüm \(n\) şeyi görmek herhangi birini görmekten logaritmik faktör kadar pahalı. RL keşfi, distinct-eleman tahmini, cache/streaming algoritmaları hep bu \(n \ln n\) ölçeğinde.

16.3 Uniform’un Evrenselliği: Geometrik Sezgi

\(P(F(X) \le c) = P(X \le x_c) = F(x_c) = c\). Çünkü \(F\) artan, olay \(F(X) \le c\) ile \(X \le x_c\) aynı.

Bu, kalibrasyon eğrileri ve PIT testlerinin temeli.

16.4 Lojistik Dağılım ve Logit

CDF: \(F(x) = e^x / (1 + e^x)\) = sigmoid. \(F^{-1}\):

\[ u = \frac{e^x}{1+e^x} \;\Rightarrow\; x = \log\frac{u}{1-u} = \text{logit}(u) \]

\(U \sim \text{Uniform}(0,1)\), \(X = \log(U/(1-U)) \sim \text{Logistic}\).

ÖnemliBuilder Notu — Logistic Regression

Lojistik CDF sigmoid’in ta kendisi; tersi logit. Logistic regression log-odds’u doğrusal modeller, sigmoid olasılığı verir. Tüm ikili sınıflandırma başlıkları bu dağılımdan gelir.

16.5 Simetri + Doğrusallık

\(X, Y, Z\) iid pozitif:

\[ 3 E\left(\frac{X}{X+Y+Z}\right) = E\left(\frac{X+Y+Z}{X+Y+Z}\right) = 1 \;\Rightarrow\; E\left(\frac{X}{X+Y+Z}\right) = \frac{1}{3} \]

Hiç integral yok — sadece simetri + doğrusallık.

İpucuBuilder Notu — Exchangeability

Simetriyle topla, doğrusallıkla çöz” tekniği exchangeable değişkenlerde her yerde: dikkat ağırlıklarında, kaynak paylaşımda, Shapley değeri atıflarında hesabı kısaltır.

16.6 LOTUS Tuzağı: İki Yol, Bir Cevap

\(U \sim\) Uniform(0,1), \(X = U^2\), \(Y = e^X\).

Yol 1 (X üzerinden): \(f_X(x) = \frac{1}{2}x^{-1/2}\), \(E(Y) = \int_0^1 e^x f_X(x) dx\).

Yol 2 (U üzerinden, doğrudan): \(Y = e^{U^2}\), \(E(Y) = \int_0^1 e^{u^2} du\).

İkisi de doğru, aynı sayı. Önemli olan örüntü, isim değil.

İpucuBuilder Notu — Monte Carlo Sadeleştirme

Yol 2 = Monte Carlo’nun doğal biçimi: \(E[g(U)]\)’yu en alttaki basit değişken üzerinden örnekle, ara dağılımları (X) bulmaya gerek yok. Reparameterization zincirini sadeleştirir.

16.7 Story Proof: n − X ~ Bin(n, q)

\(X \sim \text{Bin}(n, p)\). \(n - X\) ne?

Story: \(X\) = başarı sayısı → \(n - X\) = başarısızlık sayısı. Başarı/başarısızlık etiketlerini değiştir, başarısızlık olasılığı \(q\):

\[ n - X \sim \text{Bin}(n, q), \quad q = 1 - p \]

Hiç hesap yok.

16.8 Poisson → Üstel: İlk Bekleme Süresi

\(N_t \sim \text{Pois}(\lambda t)\) = \([0, t]\) aralığındaki olay sayısı. \(T\) = ilk olayın zamanı.

\[ P(T > t) = P(N_t = 0) = e^{-\lambda t} \]

\[ F(t) = 1 - e^{-\lambda t}, \qquad f(t) = \lambda e^{-\lambda t}, \quad t > 0 \]

İşte üstel (exponential) dağılım — Poisson sayımından (kesikli) sürekli bekleme süresi doğdu.

ÖnemliBuilder Notu — Poisson Süreci

Poisson sürecinin kalbi: olay sayısı Poisson, aralarındaki bekleme Üstel. Olay-tabanlı simülasyon, kuyruk teorisi (istek varışları), sağkalım analizi, “memoryless” varsayımlı modeller.

16.9 Üç Nesneyi Karıştırma

  • Dağılım (plan) — “ev planı”.
  • Rastgele değişken — “rastgele ev”.
  • Sabit (E(X) gibi) — “belirli ev”.

Kodda: Normal(0,1) (dist nesnesi) ≠ dist.sample() (tensor) ≠ dist.mean (skaler).

16.10 Bu Dersin Özeti

  1. Kupon toplayıcı: \(E(T) = n H_n \approx n \ln n\); parçala + doğrusallık.
  2. Universality sezgi: \(P(F(X) \le c) = c\).
  3. Lojistik: \(F^{-1}(u) = \text{logit}(u) = \log(u/(1-u))\).
  4. Simetri: iid → \(E(X/(X+Y+Z)) = 1/3\).
  5. LOTUS: \(E(g(U))\) doğrudan U üzerinden.
  6. Story proof: \(n - X \sim \text{Bin}(n, q)\).
  7. Poisson → Üstel: \(T \sim \text{Exp}(\lambda)\).
ÖnemliTek bir cümle

Zor bir problemi araçlarının tanıdığı parçalara böl — kupon toplayıcıyı geometriklere, simetrik oranı eşit terimlere, sürekli bekleme süresini Poisson sayım olayına. Ezber formül değil, yapıyı görmek kazandırır.

16.11 Kontrol Soruları

Cevap: \(E(T) = 6 H_6 = 6 \cdot 49/20 = \mathbf{14{,}7}\) atış.

Cevap: \(X = \sqrt{-\ln(1-U)}\).

Cevap: (a) \(\mathbf{1/4}\). (b) \(\mathbf{1/2}\).

Cevap: (a) \(e^{-1{,}5} \approx \mathbf{0{,}223}\). (b) \(T \sim \text{Exp}(3)\), \(E = 1/3\) saat \(= \mathbf{20}\) dk.

16.12 Egzersizler

Egzersiz 1. Kupon varyantı — \(n = 10\), \(H_{10} \approx 2{,}93\).

Egzersiz 2. \(F(x) = x^3\) (0..1). Inverse-transform formülü.

Egzersiz 3. \(X_1, \ldots, X_n\) iid pozitif, \(S = \sum X_i\). (a) \(E(X_1/S)\)? (b) \(E((X_1+X_2)/S)\)? (c) \(E(X_1^2/S^2)\) neden doğrudan \(1/n^2\) değil?

Egzersiz 4. (Python — Üç problem doğrulaması)

import numpy as np
rng = np.random.default_rng(0)

# (1) Kupon: n=10
def collect(n):
    seen, t = set(), 0
    while len(seen) < n:
        seen.add(rng.integers(n)); t += 1
    return t
n = 10
sim = np.mean([collect(n) for _ in range(5000)])
teori = n * sum(1/k for k in range(1, n+1))
print(f"Kupon n={n}: sim={sim:.2f}  teori={teori:.2f}")

# (2) Lojistik: F(0) = 0.5
U = rng.uniform(size=500_000)
X = np.log(U / (1 - U))
print(f"P(Logistic < 0) ≈ {np.mean(X < 0):.4f}  teori 0.5")

# (3) Simetri: E(X/sum) = 1/3 (3 iid Exp(1))
E = rng.exponential(size=(3, 500_000))
print(f"E(X/Σ) ≈ {np.mean(E[0] / E.sum(axis=0)):.4f}  teori {1/3:.4f}")

Egzersiz 5. (Sonraki ders) \(T \sim \text{Exp}(\lambda)\), \(f = \lambda e^{-\lambda t}\). (a) \(E(T) = 1/\lambda\). (b) \(\text{Var}(T) = 1/\lambda^2\). (c) Belleksizlik: \(P(T > s+t \mid T > s) = P(T > t)\).

16.13 Sonraki Ders İçin Hazırlık

Ders 16: Üstel Dağılım — belleksizlik, sürekli geometrik, Poisson süreci.

UyarıDers 16 öncesi yapılacak
  • Egzersizleri çöz, özellikle 5 (Üstel özellikleri).
  • Geometrik belleksizliği (Ders 9) hatırla.
  • Poisson → Üstel köprüsünü tekrar oku.

16.14 Anahtar Kavramlar (Cheat Sheet)

Problem Sonuç / Teknik Blitzstein’de
Kupon toplayıcı \(n H_n \approx n \ln n\); geometrik + doğrusallık 0m47
Parçala \(T = \sum T_j\); küçük parçalar 8m48
Universality sezgi \(P(F(X) \le c) = c\) 11m53
Lojistik \(F = \sigma\), \(F^{-1} = \text{logit}\) 14m33
Simetri \(E(X/\Sigma) = 1/n\) 18m29
LOTUS tuzak Örüntü, isim değil 27m05
Story proof \(n - X \sim \text{Bin}(n, q)\) 31m20
Poisson → Üstel \(P(T > t) = P(N_t = 0)\) 37m01
Üç nesne Plan/RD/sabit 37m44

16.15 ML Bağlantıları Özeti

İpucu7 köprü
  1. \(n \ln n\) → keşif, örneklem karmaşıklığı.
  2. Logit / sigmoidlogistic regression.
  3. Simetriexchangeability, Shapley.
  4. LOTUS doğrudan → Monte Carlo sadeleştirme.
  5. Story proof → bijektif/simetrik akıl.
  6. Poisson süreci → kuyruk, sağkalım, olay-tabanlı sim.
  7. Plan/RD/sabit → olasılıksal programlama (Pyro/NumPyro).
ÖnemliTek bir şey alıp gideceksen

Ezber formül değil, yapı görmek kazandırır — kupon toplayıcıyı geometriklere, simetrik oranı eşit terimlere, sürekli beklemeyi Poisson sayımına böl.