9  Rastgele Değişkenler ve Dağılımları

PMF/CDF, IID, hipergeometrik vs binom

NotBölüm bilgisi

9.1 Bu Derste Ne Var?

Rastgele değişkenleri derinleştiriyoruz:

  1. Binom’a üç bakış: story, gösterge (indicator) toplamı, PMF + IID.
  2. Dağılımı tanımlamak: PMF (kesikli) ve CDF (her tür).
  3. Hipergeometrik: yerine koymadan örneklemede başarı sayısı.

“there’s actually three important ways to think of it … the first one is the most important, because that’s the story.” — Blitzstein, 1:28

İpucuBuilder Notu — ML Köprüleri
  • Indicator toplamı \(X = X_1 + \ldots + X_n\), beklenen değeri doğrusallıkla hesaplamanın anahtarı (Ders 9) — karmaşık sayımları 0/1’lere indirir.
  • IID = ML’in temel varsayımı; eğitim verisi ve minibatch örnekleri i.i.d.
  • CDFinverse-transform sampling, ROC, kalibrasyon.
  • Hipergeometrik vs Binom = yerine koymadan vs koyarak; minibatch ≈ binom (büyük popülasyon).

9.2 Binom’a Üç Bakış + IID

(1) Story: \(X\) = \(n\) bağımsız Bernoulli(\(p\)) denemesindeki başarı sayısı.

(2) Gösterge toplamı:

\[ X = X_1 + X_2 + \cdots + X_n, \qquad X_j = \begin{cases} 1 & j\text{. başarı} \\ 0 & \text{aksi} \end{cases} \]

Her \(X_j\) bir gösterge (indicator). \(X_j\)’ler IID — bağımsız ve özdeş dağılımlı.

(3) PMF: \(P(X = k) = \binom{n}{k} p^k q^{n-k}\).

“IID means independent and identically distributed.” — Blitzstein, 5:48

İpucuBuilder Notu — Gösterge Altın Değerinde

Indicator toplamı ML’de altın değerinde: karmaşık bir sayımı (kaç doğru tahmin, kaç çakışma) 0/1’lerin toplamı olarak yazıp beklentinin doğrusallığıyla (Ders 9) tek satırda çözersin. IID ise tüm ML teorisinin zeminidir.

9.3 RV ≠ Dağılım; {X = x} Bir Olaydır

Rastgele değişken bir fonksiyon (\(X: S \to \mathbb{R}\)); dağılım onun olasılık profili. Çok sayıda farklı RV aynı dağılıma sahip olabilir.

“A very, very common confusion is to confuse random variables with distributions.” — Blitzstein, 6:35

\(X = 7\)” bir denklem değil, olay: \(\{s : X(s) = 7\}\). Benzer şekilde “\(X \le x\)” da bir olaydır — CDF’i tanımlamamıza izin verir.

İpucuBuilder Notu — Model vs Dağılım

“RV bir fonksiyon, dağılım onun profili” ayrımı, ML’de model (somut ağ) ile o modelin temsil ettiği/öğrendiği dağılım ayrımına denk düşer. “\(\{X = x\}\) bir olaydır” görüşü, logit’leri olay olasılıklarına (softmax) bağlamanın temeli.

9.4 Dağılımı Tanımlamak: CDF ve PMF

CDF (birikimli dağılım fonksiyonu). Her RV için tanımlı:

\[ F(x) = P(X \le x) \]

\(F\) artan; \(x \to -\infty\)’da \(0\)’a, \(+\infty\)’da \(1\)’e yaklaşır.

PMF (olasılık kütle fonksiyonu). Yalnızca kesikli için:

\[ p_j = P(X = a_j) \ge 0, \qquad \sum_j p_j = 1 \]

Binom PMF toplamı = 1, binom teoremiyle:

\[ \sum_{k=0}^{n} \binom{n}{k} p^k q^{n-k} = (p+q)^n = 1 \]

import math
import numpy as np
import matplotlib.pyplot as plt

n, p = 10, 0.4
ks = np.arange(0, n + 1)
pmf = np.array([math.comb(n, k) * p**k * (1 - p)**(n - k) for k in ks])
cdf = np.cumsum(pmf)

fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))

# PMF
ax = axes[0]
ax.bar(ks, pmf, color='#A51C30', edgecolor='#6B0E1B', alpha=0.85)
for k, p_val in zip(ks, pmf):
    if p_val > 0.02:
        ax.text(k, p_val + 0.005, f'{p_val:.3f}', ha='center', fontsize=9, color='#6B0E1B')
ax.set_xlabel('k', fontsize=12)
ax.set_ylabel('P(X = k)', fontsize=12)
ax.set_title('PMF: Binom(10, 0.4)', fontsize=12)
ax.grid(True, axis='y', alpha=0.3)

# CDF basamaklı
ax = axes[1]
x_step = np.concatenate([[-1], np.repeat(ks, 2), [n + 1]])
y_step = np.concatenate([[0, 0], np.repeat(cdf, 2)])
ax.plot(x_step, y_step, color='#2C5282', linewidth=2.2)
for k, c in zip(ks, cdf):
    ax.plot(k, c, 'o', color='#2C5282', markersize=6)
ax.set_xlabel('x', fontsize=12)
ax.set_ylabel('F(x) = P(X ≤ x)', fontsize=12)
ax.set_title('CDF: basamaklı (kesikli RV)', fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_xlim(-0.5, n + 0.5)
ax.set_ylim(-0.05, 1.05)

plt.tight_layout()
plt.show()
Şekil 9.1
ÖnemliBuilder Notu — Inverse-Transform Sampling

CDF’in evrenselliği: inverse-transform sampling\(U \sim \text{Uniform}(0, 1)\) üret, \(F^{-1}(U)\) hesapla → \(X\) dağılımından örnek. Herhangi bir dağılımdan örnekleme bunun üzerine kurulu. CDF ayrıca kuantiller, ROC eğrisi ve kalibrasyon eğrilerinin temeli. PMF’in iki koşulu (negatif değil, toplam 1) bir softmax’ı geçerli dağılım yapan koşullar.

9.5 İki Binom’un Toplamı: Konvolüsyon = Vandermonde

\(X \sim \text{Bin}(n, p)\), \(Y \sim \text{Bin}(m, p)\) bağımsız → \(X + Y \sim \text{Bin}(n+m, p)\). Üç yol:

  • Story: \(n + m\) bağımsız Bernoulli(\(p\)) → Bin(\(n+m, p\)).
  • Indicator toplamı: \(X + Y\) = \(n+m\) tane IID Bernoulli(\(p\)).
  • PMF / konvolüsyon:

\[ P(X+Y=k) = \sum_j \binom{n}{j} p^j q^{n-j} \binom{m}{k-j} p^{k-j} q^{m-k+j} = p^k q^{n+m-k} \sum_j \binom{n}{j}\binom{m}{k-j} = \binom{n+m}{k} p^k q^{n+m-k} \]

Bu Vandermonde özdeşliğinin olasılıksal yüzü.

“in statistics, this is called a convolution.” — Blitzstein, 25:48

İpucuBuilder Notu — Konvolüsyon Her Yerde

Bağımsız RV toplamı = dağılımların konvolüsyonu. ML’de her yerde: bağımsız gürültü eklemek (diffusion ileri süreci), bağımsız sayım birleştirme, FFT ile hızlı konvolüsyon (\(O(n \log n)\)). Ders 2 Vandermonde’un olasılıksal yüzü budur.

9.6 Hipergeometrik: Binom Sandığın Ama Olmayan

Binom’un kilit varsayımı: bağımsız denemeler + aynı \(p\). İkisi de bozulursa binom değil.

Karşı örnek: 52 kartlık desteden 5 karttaki as sayısı. Yerine koymadan çekiyorsun → bağımlı. PMF:

\[ P(X = k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}} \]

Genel hâli (kavanozda \(w\) beyaz, \(b\) siyah, \(n\) çek):

\[ P(X = k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{w+b}{n}} \]

Bu hipergeometrik dağılım. PMF’i ezberleme; hikâyesini (yerine koymadan, başarı sayısı) tanı.

“This distribution is called the hypergeometric.” — Blitzstein, 43:51

9.7 Hipergeometrik ↔︎ Binom: Büyük Popülasyon

Popülasyon çok büyük ve örneklem küçük olduğunda hipergeometrik ≈ binom. Bir milyar misketten 10 çekersen yerine koyup koymamak fark etmez.

from scipy.stats import hypergeom, binom
import matplotlib.pyplot as plt
import numpy as np

n_orn, p = 5, 0.4

fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))

for ax, (W, B, baslik) in zip(axes,
                                [(8, 12, 'N=20 (küçük popülasyon)'),
                                 (40_000, 60_000, 'N=100k (büyük popülasyon)')]):
    N_tot = W + B
    ks = np.arange(0, n_orn + 1)
    hg = [hypergeom.pmf(k, N_tot, W, n_orn) for k in ks]
    bn = [binom.pmf(k, n_orn, p) for k in ks]
    w = 0.35
    ax.bar(ks - w/2, hg, w, color='#A51C30', label='Hipergeometrik', edgecolor='#6B0E1B')
    ax.bar(ks + w/2, bn, w, color='#2C5282', label='Binom', edgecolor='#1e3a5f')
    fark = max(abs(h - b) for h, b in zip(hg, bn))
    ax.set_title(f'{baslik}\nmaks fark = {fark:.4f}', fontsize=11)
    ax.set_xlabel('k', fontsize=11)
    ax.set_ylabel('olasılık', fontsize=11)
    ax.legend(loc='upper right', fontsize=10)
    ax.grid(True, axis='y', alpha=0.3)

plt.tight_layout()
plt.show()
Şekil 9.2
ÖnemliBuilder Notu — Minibatch IID Varsayımı

“Büyük popülasyonda hipergeometrik ≈ binom” sonucu, ML’de bir epoch’taki minibatch’leri (sonlu veri kümesinden yerine koymadan) pratikte i.i.d. (yerine koyarak) gibi ele alabilmemizin nedeni: veri kümesi batch’e göre çok büyükse sonlu-popülasyon düzeltmesi ihmal edilebilir.

9.8 Bu Dersin Özeti

  1. Binom’a üç bakış: story, indicator toplamı, PMF. IID = bağımsız + özdeş.
  2. RV ≠ dağılım: Fonksiyon vs olasılık profili. “\(X = x\)” bir olaydır.
  3. CDF \(F(x) = P(X \le x)\) her RV için; PMF kesikli için (\(p_j \ge 0, \sum p_j = 1\)).
  4. Binom toplamı = 1 (binom teoremi). \(\text{Bin}(n,p) + \text{Bin}(m,p) = \text{Bin}(n+m, p)\) = konvolüsyon (Vandermonde).
  5. Hipergeometrik: yerine koymadan, \(\binom{w}{k}\binom{b}{n-k}/\binom{w+b}{n}\). Büyük popülasyonda \(\approx\) binom.
  6. CDF şekilleri: sürekli düzgün, kesikli basamaklı.
ÖnemliTek bir cümle

Rastgele değişken örnek uzayı sayılara eşleyen bir fonksiyondur; dağılımı PMF veya CDF ile tarif edilir. Aynı dağılımı story, gösterge toplamı, PMF gibi farklı temsillerle görmek ve “yerine koyarak mı koymadan mı” sorusu binom ile hipergeometriği ayırır.

9.9 Kontrol Soruları

Cevap: \(X = X_1 + \ldots + X_{10}\), \(X_i \sim \text{Bernoulli}(1/2)\) IID. \(X \sim \text{Binom}(10, 1/2)\).

Cevap: (a) Binom(3, 0.6). (b) Hipergeometrik: \(\binom{6}{k}\binom{4}{3-k}/\binom{10}{3}\).

Cevap: \(F(1{,}5) = P(X = 0) + P(X = 1) = 0{,}7\). CDF \(x = 1\)’de \(0{,}7\)’ye sıçrar, \(x = 2\)’ye kadar düz.

Cevap: Tam hipergeometrik. Popülasyon (1M) batch’e (32) göre devasa → \(\approx\) Binom(32, sınıf oranı). Sonlu-popülasyon düzeltmesi ihmal edilebilir.

9.10 Egzersizler

Egzersiz 1. 30 öğrenci, her biri %20 olasılıkla geç. (a) \(X\)’i gösterge toplamı yaz. (b) Dağılımı?

Egzersiz 2. 20 kişi (8 K, 12 E), 5’li komite, tam 3 kadın olasılığı (hipergeometrik).

Egzersiz 3. Adil zar, \(P(X=k) = 1/6\). (a) \(F(3)\)? (b) \(P(2 \le X \le 4)\)?

Egzersiz 4. (Python — hiper vs binom karşılaştırma)

from scipy.stats import hypergeom, binom

n, p = 5, 0.4
for W, B in [(8, 12), (40_000, 60_000)]:
    N = W + B
    hg = [hypergeom.pmf(k, N, W, n) for k in range(n + 1)]
    bn = [binom.pmf(k, n, p) for k in range(n + 1)]
    fark = max(abs(h - b) for h, b in zip(hg, bn))
    print(f"N={N:>7}: maks |hiper - binom| = {fark:.4f}")

Egzersiz 5. (Sonraki ders) Bin(\(n, p\)) = \(n\) Bernoulli(\(p\)) toplamı. Her göstergenin “ortalama” değeri \(p\) ise, toplamın ortalaması ne olmalı? (\(np\) tahminini gerekçelendir.)

9.11 Sonraki Ders İçin Hazırlık

Ders 9: Beklenti, Gösterge RD’ler, Doğrusallık

Beklentinin doğrusallığı: \(E[X + Y] = E[X] + E[Y]\), bağımsız olmasalar bile. Bu, gösterge toplamı fikriyle birleşince binom, hipergeometrik, eşleşme beklentilerini tek satırda verir.

UyarıDers 9 öncesi yapılacak
  • Egzersizleri çöz — özellikle 1 (gösterge ayrışımı) ve 4 (hiper vs binom).
  • “RV bir fonksiyon, dağılım onun profili” + “X+Y = konvolüsyon” sezgilerini pekiştir.
  • Ana cümleyi tekrar oku: “Rastgele değişken bir fonksiyondur…”

9.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Blitzstein’de
Binom’a üç bakış story / indicator / PMF 1m28
IID Bağımsız + özdeş dağılımlı 5m48
Indicator RV \(X_j = 1\) (başarı), \(0\) (değil) 3m55
RV ≠ dağılım Fonksiyon vs profili 6m35
{X=x} olaydır \(\{s : X(s) = x\}\) 9m59
CDF \(F(x) = P(X \le x)\) 11m05
PMF \(p_j \ge 0, \sum p_j = 1\) 16m36
Binom toplamı Bin(\(n,p\)) + Bin(\(m,p\)) = Bin(\(n+m,p\)) 22m48
Konvolüsyon RV toplamı; Vandermonde 25m48
Hipergeometrik Yerine koymadan başarı sayısı 43m51
Hiper ≈ Binom Büyük popülasyon, küçük örneklem 46m13

9.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. Indicator toplamı → beklentinin doğrusallığı; karmaşık sayım → 0/1 (Ders 9).
  2. IID → ML temel varsayımı; minibatch.
  3. RV ≠ dağılım → model (fonksiyon) vs öğrenilen dağılım.
  4. CDF → inverse-transform sampling, kuantiller, ROC.
  5. PMF koşulları → softmax geçerliliği.
  6. Konvolüsyon → bağımsız toplam, diffusion gürültü, FFT.
  7. Hiper ≈ Binom → minibatch’i i.i.d. ele almanın matematiksel temeli.
ÖnemliTek bir şey alıp gideceksen

Bir dağılımı tek bir formülle değil, birden çok temsille (story, gösterge toplamı, PMF/CDF) tut — ve “yerine koyarak mı, koymadan mı” binom ile hipergeometriği ayırır (büyük popülasyonda birleşirler).