from scipy.stats import hypergeom, binom
n, p = 5, 0.4
for W, B in [(8, 12), (40_000, 60_000)]:
N = W + B
hg = [hypergeom.pmf(k, N, W, n) for k in range(n + 1)]
bn = [binom.pmf(k, n, p) for k in range(n + 1)]
fark = max(abs(h - b) for h, b in zip(hg, bn))
print(f"N={N:>7}: maks |hiper - binom| = {fark:.4f}")9 Rastgele Değişkenler ve Dağılımları
PMF/CDF, IID, hipergeometrik vs binom
- Blitzstein’in videosu: YouTube — Lecture 8: Random Variables and Their Distributions (≈50 dk)
- Okuma süresi: ≈28 dk
9.1 Bu Derste Ne Var?
Rastgele değişkenleri derinleştiriyoruz:
- Binom’a üç bakış: story, gösterge (indicator) toplamı, PMF + IID.
- Dağılımı tanımlamak: PMF (kesikli) ve CDF (her tür).
- Hipergeometrik: yerine koymadan örneklemede başarı sayısı.
“there’s actually three important ways to think of it … the first one is the most important, because that’s the story.” — Blitzstein, 1:28
- Indicator toplamı \(X = X_1 + \ldots + X_n\), beklenen değeri doğrusallıkla hesaplamanın anahtarı (Ders 9) — karmaşık sayımları 0/1’lere indirir.
- IID = ML’in temel varsayımı; eğitim verisi ve minibatch örnekleri i.i.d.
- CDF → inverse-transform sampling, ROC, kalibrasyon.
- Hipergeometrik vs Binom = yerine koymadan vs koyarak; minibatch ≈ binom (büyük popülasyon).
9.2 Binom’a Üç Bakış + IID
(1) Story: \(X\) = \(n\) bağımsız Bernoulli(\(p\)) denemesindeki başarı sayısı.
(2) Gösterge toplamı:
\[ X = X_1 + X_2 + \cdots + X_n, \qquad X_j = \begin{cases} 1 & j\text{. başarı} \\ 0 & \text{aksi} \end{cases} \]
Her \(X_j\) bir gösterge (indicator). \(X_j\)’ler IID — bağımsız ve özdeş dağılımlı.
(3) PMF: \(P(X = k) = \binom{n}{k} p^k q^{n-k}\).
“IID means independent and identically distributed.” — Blitzstein, 5:48
Indicator toplamı ML’de altın değerinde: karmaşık bir sayımı (kaç doğru tahmin, kaç çakışma) 0/1’lerin toplamı olarak yazıp beklentinin doğrusallığıyla (Ders 9) tek satırda çözersin. IID ise tüm ML teorisinin zeminidir.
9.3 RV ≠ Dağılım; {X = x} Bir Olaydır
Rastgele değişken bir fonksiyon (\(X: S \to \mathbb{R}\)); dağılım onun olasılık profili. Çok sayıda farklı RV aynı dağılıma sahip olabilir.
“A very, very common confusion is to confuse random variables with distributions.” — Blitzstein, 6:35
“\(X = 7\)” bir denklem değil, olay: \(\{s : X(s) = 7\}\). Benzer şekilde “\(X \le x\)” da bir olaydır — CDF’i tanımlamamıza izin verir.
“RV bir fonksiyon, dağılım onun profili” ayrımı, ML’de model (somut ağ) ile o modelin temsil ettiği/öğrendiği dağılım ayrımına denk düşer. “\(\{X = x\}\) bir olaydır” görüşü, logit’leri olay olasılıklarına (softmax) bağlamanın temeli.
9.4 Dağılımı Tanımlamak: CDF ve PMF
CDF (birikimli dağılım fonksiyonu). Her RV için tanımlı:
\[ F(x) = P(X \le x) \]
\(F\) artan; \(x \to -\infty\)’da \(0\)’a, \(+\infty\)’da \(1\)’e yaklaşır.
PMF (olasılık kütle fonksiyonu). Yalnızca kesikli için:
\[ p_j = P(X = a_j) \ge 0, \qquad \sum_j p_j = 1 \]
Binom PMF toplamı = 1, binom teoremiyle:
\[ \sum_{k=0}^{n} \binom{n}{k} p^k q^{n-k} = (p+q)^n = 1 \]
import math
import numpy as np
import matplotlib.pyplot as plt
n, p = 10, 0.4
ks = np.arange(0, n + 1)
pmf = np.array([math.comb(n, k) * p**k * (1 - p)**(n - k) for k in ks])
cdf = np.cumsum(pmf)
fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))
# PMF
ax = axes[0]
ax.bar(ks, pmf, color='#A51C30', edgecolor='#6B0E1B', alpha=0.85)
for k, p_val in zip(ks, pmf):
if p_val > 0.02:
ax.text(k, p_val + 0.005, f'{p_val:.3f}', ha='center', fontsize=9, color='#6B0E1B')
ax.set_xlabel('k', fontsize=12)
ax.set_ylabel('P(X = k)', fontsize=12)
ax.set_title('PMF: Binom(10, 0.4)', fontsize=12)
ax.grid(True, axis='y', alpha=0.3)
# CDF basamaklı
ax = axes[1]
x_step = np.concatenate([[-1], np.repeat(ks, 2), [n + 1]])
y_step = np.concatenate([[0, 0], np.repeat(cdf, 2)])
ax.plot(x_step, y_step, color='#2C5282', linewidth=2.2)
for k, c in zip(ks, cdf):
ax.plot(k, c, 'o', color='#2C5282', markersize=6)
ax.set_xlabel('x', fontsize=12)
ax.set_ylabel('F(x) = P(X ≤ x)', fontsize=12)
ax.set_title('CDF: basamaklı (kesikli RV)', fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_xlim(-0.5, n + 0.5)
ax.set_ylim(-0.05, 1.05)
plt.tight_layout()
plt.show()CDF’in evrenselliği: inverse-transform sampling — \(U \sim \text{Uniform}(0, 1)\) üret, \(F^{-1}(U)\) hesapla → \(X\) dağılımından örnek. Herhangi bir dağılımdan örnekleme bunun üzerine kurulu. CDF ayrıca kuantiller, ROC eğrisi ve kalibrasyon eğrilerinin temeli. PMF’in iki koşulu (negatif değil, toplam 1) bir softmax’ı geçerli dağılım yapan koşullar.
9.5 İki Binom’un Toplamı: Konvolüsyon = Vandermonde
\(X \sim \text{Bin}(n, p)\), \(Y \sim \text{Bin}(m, p)\) bağımsız → \(X + Y \sim \text{Bin}(n+m, p)\). Üç yol:
- Story: \(n + m\) bağımsız Bernoulli(\(p\)) → Bin(\(n+m, p\)).
- Indicator toplamı: \(X + Y\) = \(n+m\) tane IID Bernoulli(\(p\)).
- PMF / konvolüsyon:
\[ P(X+Y=k) = \sum_j \binom{n}{j} p^j q^{n-j} \binom{m}{k-j} p^{k-j} q^{m-k+j} = p^k q^{n+m-k} \sum_j \binom{n}{j}\binom{m}{k-j} = \binom{n+m}{k} p^k q^{n+m-k} \]
Bu Vandermonde özdeşliğinin olasılıksal yüzü.
“in statistics, this is called a convolution.” — Blitzstein, 25:48
Bağımsız RV toplamı = dağılımların konvolüsyonu. ML’de her yerde: bağımsız gürültü eklemek (diffusion ileri süreci), bağımsız sayım birleştirme, FFT ile hızlı konvolüsyon (\(O(n \log n)\)). Ders 2 Vandermonde’un olasılıksal yüzü budur.
9.6 Hipergeometrik: Binom Sandığın Ama Olmayan
Binom’un kilit varsayımı: bağımsız denemeler + aynı \(p\). İkisi de bozulursa binom değil.
Karşı örnek: 52 kartlık desteden 5 karttaki as sayısı. Yerine koymadan çekiyorsun → bağımlı. PMF:
\[ P(X = k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}} \]
Genel hâli (kavanozda \(w\) beyaz, \(b\) siyah, \(n\) çek):
\[ P(X = k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{w+b}{n}} \]
Bu hipergeometrik dağılım. PMF’i ezberleme; hikâyesini (yerine koymadan, başarı sayısı) tanı.
“This distribution is called the hypergeometric.” — Blitzstein, 43:51
9.7 Hipergeometrik ↔︎ Binom: Büyük Popülasyon
Popülasyon çok büyük ve örneklem küçük olduğunda hipergeometrik ≈ binom. Bir milyar misketten 10 çekersen yerine koyup koymamak fark etmez.
from scipy.stats import hypergeom, binom
import matplotlib.pyplot as plt
import numpy as np
n_orn, p = 5, 0.4
fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))
for ax, (W, B, baslik) in zip(axes,
[(8, 12, 'N=20 (küçük popülasyon)'),
(40_000, 60_000, 'N=100k (büyük popülasyon)')]):
N_tot = W + B
ks = np.arange(0, n_orn + 1)
hg = [hypergeom.pmf(k, N_tot, W, n_orn) for k in ks]
bn = [binom.pmf(k, n_orn, p) for k in ks]
w = 0.35
ax.bar(ks - w/2, hg, w, color='#A51C30', label='Hipergeometrik', edgecolor='#6B0E1B')
ax.bar(ks + w/2, bn, w, color='#2C5282', label='Binom', edgecolor='#1e3a5f')
fark = max(abs(h - b) for h, b in zip(hg, bn))
ax.set_title(f'{baslik}\nmaks fark = {fark:.4f}', fontsize=11)
ax.set_xlabel('k', fontsize=11)
ax.set_ylabel('olasılık', fontsize=11)
ax.legend(loc='upper right', fontsize=10)
ax.grid(True, axis='y', alpha=0.3)
plt.tight_layout()
plt.show()“Büyük popülasyonda hipergeometrik ≈ binom” sonucu, ML’de bir epoch’taki minibatch’leri (sonlu veri kümesinden yerine koymadan) pratikte i.i.d. (yerine koyarak) gibi ele alabilmemizin nedeni: veri kümesi batch’e göre çok büyükse sonlu-popülasyon düzeltmesi ihmal edilebilir.
9.8 Bu Dersin Özeti
- Binom’a üç bakış: story, indicator toplamı, PMF. IID = bağımsız + özdeş.
- RV ≠ dağılım: Fonksiyon vs olasılık profili. “\(X = x\)” bir olaydır.
- CDF \(F(x) = P(X \le x)\) her RV için; PMF kesikli için (\(p_j \ge 0, \sum p_j = 1\)).
- Binom toplamı = 1 (binom teoremi). \(\text{Bin}(n,p) + \text{Bin}(m,p) = \text{Bin}(n+m, p)\) = konvolüsyon (Vandermonde).
- Hipergeometrik: yerine koymadan, \(\binom{w}{k}\binom{b}{n-k}/\binom{w+b}{n}\). Büyük popülasyonda \(\approx\) binom.
- CDF şekilleri: sürekli düzgün, kesikli basamaklı.
Rastgele değişken örnek uzayı sayılara eşleyen bir fonksiyondur; dağılımı PMF veya CDF ile tarif edilir. Aynı dağılımı story, gösterge toplamı, PMF gibi farklı temsillerle görmek ve “yerine koyarak mı koymadan mı” sorusu binom ile hipergeometriği ayırır.
9.9 Kontrol Soruları
Cevap: \(X = X_1 + \ldots + X_{10}\), \(X_i \sim \text{Bernoulli}(1/2)\) IID. \(X \sim \text{Binom}(10, 1/2)\).
Cevap: (a) Binom(3, 0.6). (b) Hipergeometrik: \(\binom{6}{k}\binom{4}{3-k}/\binom{10}{3}\).
Cevap: \(F(1{,}5) = P(X = 0) + P(X = 1) = 0{,}7\). CDF \(x = 1\)’de \(0{,}7\)’ye sıçrar, \(x = 2\)’ye kadar düz.
Cevap: Tam hipergeometrik. Popülasyon (1M) batch’e (32) göre devasa → \(\approx\) Binom(32, sınıf oranı). Sonlu-popülasyon düzeltmesi ihmal edilebilir.
9.10 Egzersizler
Egzersiz 1. 30 öğrenci, her biri %20 olasılıkla geç. (a) \(X\)’i gösterge toplamı yaz. (b) Dağılımı?
Egzersiz 2. 20 kişi (8 K, 12 E), 5’li komite, tam 3 kadın olasılığı (hipergeometrik).
Egzersiz 3. Adil zar, \(P(X=k) = 1/6\). (a) \(F(3)\)? (b) \(P(2 \le X \le 4)\)?
Egzersiz 4. (Python — hiper vs binom karşılaştırma)
Egzersiz 5. (Sonraki ders) Bin(\(n, p\)) = \(n\) Bernoulli(\(p\)) toplamı. Her göstergenin “ortalama” değeri \(p\) ise, toplamın ortalaması ne olmalı? (\(np\) tahminini gerekçelendir.)
9.11 Sonraki Ders İçin Hazırlık
Ders 9: Beklenti, Gösterge RD’ler, Doğrusallık
Beklentinin doğrusallığı: \(E[X + Y] = E[X] + E[Y]\), bağımsız olmasalar bile. Bu, gösterge toplamı fikriyle birleşince binom, hipergeometrik, eşleşme beklentilerini tek satırda verir.
- Egzersizleri çöz — özellikle 1 (gösterge ayrışımı) ve 4 (hiper vs binom).
- “RV bir fonksiyon, dağılım onun profili” + “X+Y = konvolüsyon” sezgilerini pekiştir.
- Ana cümleyi tekrar oku: “Rastgele değişken bir fonksiyondur…”
9.12 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Blitzstein’de |
|---|---|---|
| Binom’a üç bakış | story / indicator / PMF | 1m28 |
| IID | Bağımsız + özdeş dağılımlı | 5m48 |
| Indicator RV | \(X_j = 1\) (başarı), \(0\) (değil) | 3m55 |
| RV ≠ dağılım | Fonksiyon vs profili | 6m35 |
| {X=x} olaydır | \(\{s : X(s) = x\}\) | 9m59 |
| CDF | \(F(x) = P(X \le x)\) | 11m05 |
| PMF | \(p_j \ge 0, \sum p_j = 1\) | 16m36 |
| Binom toplamı | Bin(\(n,p\)) + Bin(\(m,p\)) = Bin(\(n+m,p\)) | 22m48 |
| Konvolüsyon | RV toplamı; Vandermonde | 25m48 |
| Hipergeometrik | Yerine koymadan başarı sayısı | 43m51 |
| Hiper ≈ Binom | Büyük popülasyon, küçük örneklem | 46m13 |
9.13 ML Bağlantıları Özeti
- Indicator toplamı → beklentinin doğrusallığı; karmaşık sayım → 0/1 (Ders 9).
- IID → ML temel varsayımı; minibatch.
- RV ≠ dağılım → model (fonksiyon) vs öğrenilen dağılım.
- CDF → inverse-transform sampling, kuantiller, ROC.
- PMF koşulları → softmax geçerliliği.
- Konvolüsyon → bağımsız toplam, diffusion gürültü, FFT.
- Hiper ≈ Binom → minibatch’i i.i.d. ele almanın matematiksel temeli.
Bir dağılımı tek bir formülle değil, birden çok temsille (story, gösterge toplamı, PMF/CDF) tut — ve “yerine koyarak mı, koymadan mı” binom ile hipergeometriği ayırır (büyük popülasyonda birleşirler).