import numpy as np
rng = np.random.default_rng(0)
# (1) Kupon: n=10
def collect(n):
seen, t = set(), 0
while len(seen) < n:
seen.add(rng.integers(n)); t += 1
return t
n = 10
sim = np.mean([collect(n) for _ in range(5000)])
teori = n * sum(1/k for k in range(1, n+1))
print(f"Kupon n={n}: sim={sim:.2f} teori={teori:.2f}")
# (2) Lojistik: F(0) = 0.5
U = rng.uniform(size=500_000)
X = np.log(U / (1 - U))
print(f"P(Logistic < 0) ≈ {np.mean(X < 0):.4f} teori 0.5")
# (3) Simetri: E(X/sum) = 1/3 (3 iid Exp(1))
E = rng.exponential(size=(3, 500_000))
print(f"E(X/Σ) ≈ {np.mean(E[0] / E.sum(axis=0)):.4f} teori {1/3:.4f}")16 Ara Sınav İncelemesi
Kupon toplayıcı, logit, simetri, Poisson→Üstel
- Blitzstein’in videosu: YouTube — Lecture 15: Midterm Review (≈38 dk)
- Okuma süresi: ≈30 dk
- Not: Yeni teori yok — Ders 1-14’ün araçlarını 6 problemde canlandırıyor.
16.1 Bu Derste Ne Var?
Altı problem:
- Kupon toplayıcı (\(n H_n \approx n \ln n\)).
- Uniform’un evrenselliği — geometrik sezgi.
- Lojistik dağılım — logit ile örnekleme.
- Simetri + doğrusallık — \(E(X/(X+Y+Z)) = 1/3\).
- LOTUS tuzağı — örüntü, isim değil.
- Story proof + Poisson → Üstel — sürekli bekleme.
- Kupon toplayıcı (\(n \ln n\)) → keşif/kapsama, örneklem karmaşıklığı.
- Logit / sigmoid → logistic regression, sınıflandırma başlığı.
- Simetri (exchangeability) → i.i.d.’de eşit katkı (Shapley benzeri).
- Poisson → Üstel → bekleme süreleri, kuyruk teorisi, Poisson süreci.
16.2 Kupon Toplayıcı
\(n\) farklı kupon. Tam seti toplama süresi \(T\). Parçala:
\[ T = T_1 + T_2 + \ldots + T_n \]
\(T_j\) = \((j-1)\). yeni’den \(j\). yeni’ye kadar. \(T_j - 1 \sim \text{Geom}((n-j+1)/n)\), \(E(T_j) = n/(n-j+1)\):
\[ E(T) = \sum_{j=1}^{n} \frac{n}{n-j+1} = n \sum_{k=1}^{n} \frac{1}{k} = n H_n \approx n \ln n \]
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
def collect(n):
seen, t = set(), 0
while len(seen) < n:
seen.add(rng.integers(n))
t += 1
return t
ns = [5, 10, 20, 30, 50, 75, 100]
teorik = [n * sum(1/k for k in range(1, n+1)) for n in ns]
sim = [np.mean([collect(n) for _ in range(2000)]) for n in ns]
n_lnn = [n * np.log(n) for n in ns]
fig, ax = plt.subplots(figsize=(10, 5))
ax.plot(ns, teorik, 'o-', color='#A51C30', linewidth=2.5, markersize=10, label='$n H_n$ (teori)')
ax.plot(ns, sim, 's--', color='#DD6B20', linewidth=2, markersize=8, label='Simülasyon')
ax.plot(ns, n_lnn, '^:', color='#2C5282', linewidth=2, markersize=8, label='$n \\ln n$ (asimptotik)')
ax.set_xlabel('n (kupon sayısı)', fontsize=12)
ax.set_ylabel('Beklenen toplama süresi', fontsize=12)
ax.set_title('Kupon toplayıcı: $n H_n \\approx n \\ln n$ büyümesi',
fontsize=12)
ax.legend(loc='upper left', fontsize=11)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()Kupon toplayıcı ML/CS’de örneklem karmaşıklığının klasik modeli: tüm \(n\) şeyi görmek herhangi birini görmekten logaritmik faktör kadar pahalı. RL keşfi, distinct-eleman tahmini, cache/streaming algoritmaları hep bu \(n \ln n\) ölçeğinde.
16.3 Uniform’un Evrenselliği: Geometrik Sezgi
\(P(F(X) \le c) = P(X \le x_c) = F(x_c) = c\). Çünkü \(F\) artan, olay \(F(X) \le c\) ile \(X \le x_c\) aynı.
Bu, kalibrasyon eğrileri ve PIT testlerinin temeli.
16.4 Lojistik Dağılım ve Logit
CDF: \(F(x) = e^x / (1 + e^x)\) = sigmoid. \(F^{-1}\):
\[ u = \frac{e^x}{1+e^x} \;\Rightarrow\; x = \log\frac{u}{1-u} = \text{logit}(u) \]
\(U \sim \text{Uniform}(0,1)\), \(X = \log(U/(1-U)) \sim \text{Logistic}\).
Lojistik CDF sigmoid’in ta kendisi; tersi logit. Logistic regression log-odds’u doğrusal modeller, sigmoid olasılığı verir. Tüm ikili sınıflandırma başlıkları bu dağılımdan gelir.
16.5 Simetri + Doğrusallık
\(X, Y, Z\) iid pozitif:
\[ 3 E\left(\frac{X}{X+Y+Z}\right) = E\left(\frac{X+Y+Z}{X+Y+Z}\right) = 1 \;\Rightarrow\; E\left(\frac{X}{X+Y+Z}\right) = \frac{1}{3} \]
Hiç integral yok — sadece simetri + doğrusallık.
“Simetriyle topla, doğrusallıkla çöz” tekniği exchangeable değişkenlerde her yerde: dikkat ağırlıklarında, kaynak paylaşımda, Shapley değeri atıflarında hesabı kısaltır.
16.6 LOTUS Tuzağı: İki Yol, Bir Cevap
\(U \sim\) Uniform(0,1), \(X = U^2\), \(Y = e^X\).
Yol 1 (X üzerinden): \(f_X(x) = \frac{1}{2}x^{-1/2}\), \(E(Y) = \int_0^1 e^x f_X(x) dx\).
Yol 2 (U üzerinden, doğrudan): \(Y = e^{U^2}\), \(E(Y) = \int_0^1 e^{u^2} du\).
İkisi de doğru, aynı sayı. Önemli olan örüntü, isim değil.
Yol 2 = Monte Carlo’nun doğal biçimi: \(E[g(U)]\)’yu en alttaki basit değişken üzerinden örnekle, ara dağılımları (X) bulmaya gerek yok. Reparameterization zincirini sadeleştirir.
16.7 Story Proof: n − X ~ Bin(n, q)
\(X \sim \text{Bin}(n, p)\). \(n - X\) ne?
Story: \(X\) = başarı sayısı → \(n - X\) = başarısızlık sayısı. Başarı/başarısızlık etiketlerini değiştir, başarısızlık olasılığı \(q\):
\[ n - X \sim \text{Bin}(n, q), \quad q = 1 - p \]
Hiç hesap yok.
16.8 Poisson → Üstel: İlk Bekleme Süresi
\(N_t \sim \text{Pois}(\lambda t)\) = \([0, t]\) aralığındaki olay sayısı. \(T\) = ilk olayın zamanı.
\[ P(T > t) = P(N_t = 0) = e^{-\lambda t} \]
\[ F(t) = 1 - e^{-\lambda t}, \qquad f(t) = \lambda e^{-\lambda t}, \quad t > 0 \]
İşte üstel (exponential) dağılım — Poisson sayımından (kesikli) sürekli bekleme süresi doğdu.
Poisson sürecinin kalbi: olay sayısı Poisson, aralarındaki bekleme Üstel. Olay-tabanlı simülasyon, kuyruk teorisi (istek varışları), sağkalım analizi, “memoryless” varsayımlı modeller.
16.9 Üç Nesneyi Karıştırma
- Dağılım (plan) — “ev planı”.
- Rastgele değişken — “rastgele ev”.
- Sabit (E(X) gibi) — “belirli ev”.
Kodda: Normal(0,1) (dist nesnesi) ≠ dist.sample() (tensor) ≠ dist.mean (skaler).
16.10 Bu Dersin Özeti
- Kupon toplayıcı: \(E(T) = n H_n \approx n \ln n\); parçala + doğrusallık.
- Universality sezgi: \(P(F(X) \le c) = c\).
- Lojistik: \(F^{-1}(u) = \text{logit}(u) = \log(u/(1-u))\).
- Simetri: iid → \(E(X/(X+Y+Z)) = 1/3\).
- LOTUS: \(E(g(U))\) doğrudan U üzerinden.
- Story proof: \(n - X \sim \text{Bin}(n, q)\).
- Poisson → Üstel: \(T \sim \text{Exp}(\lambda)\).
Zor bir problemi araçlarının tanıdığı parçalara böl — kupon toplayıcıyı geometriklere, simetrik oranı eşit terimlere, sürekli bekleme süresini Poisson sayım olayına. Ezber formül değil, yapıyı görmek kazandırır.
16.11 Kontrol Soruları
Cevap: \(E(T) = 6 H_6 = 6 \cdot 49/20 = \mathbf{14{,}7}\) atış.
Cevap: \(X = \sqrt{-\ln(1-U)}\).
Cevap: (a) \(\mathbf{1/4}\). (b) \(\mathbf{1/2}\).
Cevap: (a) \(e^{-1{,}5} \approx \mathbf{0{,}223}\). (b) \(T \sim \text{Exp}(3)\), \(E = 1/3\) saat \(= \mathbf{20}\) dk.
16.12 Egzersizler
Egzersiz 1. Kupon varyantı — \(n = 10\), \(H_{10} \approx 2{,}93\).
Egzersiz 2. \(F(x) = x^3\) (0..1). Inverse-transform formülü.
Egzersiz 3. \(X_1, \ldots, X_n\) iid pozitif, \(S = \sum X_i\). (a) \(E(X_1/S)\)? (b) \(E((X_1+X_2)/S)\)? (c) \(E(X_1^2/S^2)\) neden doğrudan \(1/n^2\) değil?
Egzersiz 4. (Python — Üç problem doğrulaması)
Egzersiz 5. (Sonraki ders) \(T \sim \text{Exp}(\lambda)\), \(f = \lambda e^{-\lambda t}\). (a) \(E(T) = 1/\lambda\). (b) \(\text{Var}(T) = 1/\lambda^2\). (c) Belleksizlik: \(P(T > s+t \mid T > s) = P(T > t)\).
16.13 Sonraki Ders İçin Hazırlık
Ders 16: Üstel Dağılım — belleksizlik, sürekli geometrik, Poisson süreci.
- Egzersizleri çöz, özellikle 5 (Üstel özellikleri).
- Geometrik belleksizliği (Ders 9) hatırla.
- Poisson → Üstel köprüsünü tekrar oku.
16.14 Anahtar Kavramlar (Cheat Sheet)
| Problem | Sonuç / Teknik | Blitzstein’de |
|---|---|---|
| Kupon toplayıcı | \(n H_n \approx n \ln n\); geometrik + doğrusallık | 0m47 |
| Parçala | \(T = \sum T_j\); küçük parçalar | 8m48 |
| Universality sezgi | \(P(F(X) \le c) = c\) | 11m53 |
| Lojistik | \(F = \sigma\), \(F^{-1} = \text{logit}\) | 14m33 |
| Simetri | \(E(X/\Sigma) = 1/n\) | 18m29 |
| LOTUS tuzak | Örüntü, isim değil | 27m05 |
| Story proof | \(n - X \sim \text{Bin}(n, q)\) | 31m20 |
| Poisson → Üstel | \(P(T > t) = P(N_t = 0)\) | 37m01 |
| Üç nesne | Plan/RD/sabit | 37m44 |
16.15 ML Bağlantıları Özeti
- \(n \ln n\) → keşif, örneklem karmaşıklığı.
- Logit / sigmoid → logistic regression.
- Simetri → exchangeability, Shapley.
- LOTUS doğrudan → Monte Carlo sadeleştirme.
- Story proof → bijektif/simetrik akıl.
- Poisson süreci → kuyruk, sağkalım, olay-tabanlı sim.
- Plan/RD/sabit → olasılıksal programlama (Pyro/NumPyro).
Ezber formül değil, yapı görmek kazandırır — kupon toplayıcıyı geometriklere, simetrik oranı eşit terimlere, sürekli beklemeyi Poisson sayımına böl.