9 Rastgele Değişkenler ve Dağılımları

PMF/CDF, IID, hipergeometrik vs binom

Bölüm bilgisi

Blitzstein’in videosu: YouTube — Lecture 8: Random Variables and Their Distributions (≈50 dk)
Okuma süresi: ≈28 dk

9.1 Bu Derste Ne Var?

Rastgele değişkenleri derinleştiriyoruz:

Binom’a üç bakış: story, gösterge (indicator) toplamı, PMF + IID.
Dağılımı tanımlamak: PMF (kesikli) ve CDF (her tür).
Hipergeometrik: yerine koymadan örneklemede başarı sayısı.

“there’s actually three important ways to think of it … the first one is the most important, because that’s the story.” — Blitzstein, 1:28

Builder Notu — ML Köprüleri

Indicator toplamı $X = X_1 + \ldots + X_n$, beklenen değeri doğrusallıkla hesaplamanın anahtarı (Ders 9) — karmaşık sayımları 0/1’lere indirir.
IID = ML’in temel varsayımı; eğitim verisi ve minibatch örnekleri i.i.d.
CDF → inverse-transform sampling, ROC, kalibrasyon.
Hipergeometrik vs Binom = yerine koymadan vs koyarak; minibatch ≈ binom (büyük popülasyon).

9.2 Binom’a Üç Bakış + IID

(1) Story: $X$ = $n$ bağımsız Bernoulli($p$) denemesindeki başarı sayısı.

(2) Gösterge toplamı:

\[ X = X_1 + X_2 + \cdots + X_n, \qquad X_j = \begin{cases} 1 & j\text{. başarı} \\ 0 & \text{aksi} \end{cases} \]

Her $X_j$ bir gösterge (indicator). $X_j$’ler IID — bağımsız ve özdeş dağılımlı.

(3) PMF: $P(X = k) = \binom{n}{k} p^k q^{n-k}$.

“IID means independent and identically distributed.” — Blitzstein, 5:48

Builder Notu — Gösterge Altın Değerinde

Indicator toplamı ML’de altın değerinde: karmaşık bir sayımı (kaç doğru tahmin, kaç çakışma) 0/1’lerin toplamı olarak yazıp beklentinin doğrusallığıyla (Ders 9) tek satırda çözersin. IID ise tüm ML teorisinin zeminidir.

9.3 RV ≠ Dağılım; {X = x} Bir Olaydır

Rastgele değişken bir fonksiyon ($X: S \to \mathbb{R}$); dağılım onun olasılık profili. Çok sayıda farklı RV aynı dağılıma sahip olabilir.

“A very, very common confusion is to confuse random variables with distributions.” — Blitzstein, 6:35

“$X = 7$” bir denklem değil, olay: $\{s : X(s) = 7\}$. Benzer şekilde “$X \le x$” da bir olaydır — CDF’i tanımlamamıza izin verir.

Builder Notu — Model vs Dağılım

“RV bir fonksiyon, dağılım onun profili” ayrımı, ML’de model (somut ağ) ile o modelin temsil ettiği/öğrendiği dağılım ayrımına denk düşer. “$\{X = x\}$ bir olaydır” görüşü, logit’leri olay olasılıklarına (softmax) bağlamanın temeli.

9.4 Dağılımı Tanımlamak: CDF ve PMF

CDF (birikimli dağılım fonksiyonu). Her RV için tanımlı:

\[ F(x) = P(X \le x) \]

$F$ artan; $x \to -\infty$’da $0$’a, $+\infty$’da $1$’e yaklaşır.

PMF (olasılık kütle fonksiyonu). Yalnızca kesikli için:

\[ p_j = P(X = a_j) \ge 0, \qquad \sum_j p_j = 1 \]

Binom PMF toplamı = 1, binom teoremiyle:

\[ \sum_{k=0}^{n} \binom{n}{k} p^k q^{n-k} = (p+q)^n = 1 \]

import math
import numpy as np
import matplotlib.pyplot as plt

n, p = 10, 0.4
ks = np.arange(0, n + 1)
pmf = np.array([math.comb(n, k) * p**k * (1 - p)**(n - k) for k in ks])
cdf = np.cumsum(pmf)

fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))

# PMF
ax = axes[0]
ax.bar(ks, pmf, color='#A51C30', edgecolor='#6B0E1B', alpha=0.85)
for k, p_val in zip(ks, pmf):
    if p_val > 0.02:
        ax.text(k, p_val + 0.005, f'{p_val:.3f}', ha='center', fontsize=9, color='#6B0E1B')
ax.set_xlabel('k', fontsize=12)
ax.set_ylabel('P(X = k)', fontsize=12)
ax.set_title('PMF: Binom(10, 0.4)', fontsize=12)
ax.grid(True, axis='y', alpha=0.3)

# CDF basamaklı
ax = axes[1]
x_step = np.concatenate([[-1], np.repeat(ks, 2), [n + 1]])
y_step = np.concatenate([[0, 0], np.repeat(cdf, 2)])
ax.plot(x_step, y_step, color='#2C5282', linewidth=2.2)
for k, c in zip(ks, cdf):
    ax.plot(k, c, 'o', color='#2C5282', markersize=6)
ax.set_xlabel('x', fontsize=12)
ax.set_ylabel('F(x) = P(X ≤ x)', fontsize=12)
ax.set_title('CDF: basamaklı (kesikli RV)', fontsize=12)
ax.grid(True, alpha=0.3)
ax.set_xlim(-0.5, n + 0.5)
ax.set_ylim(-0.05, 1.05)

plt.tight_layout()
plt.show()

Şekil 9.1

Builder Notu — Inverse-Transform Sampling

CDF’in evrenselliği: inverse-transform sampling — $U \sim \text{Uniform}(0, 1)$ üret, $F^{-1}(U)$ hesapla → $X$ dağılımından örnek. Herhangi bir dağılımdan örnekleme bunun üzerine kurulu. CDF ayrıca kuantiller, ROC eğrisi ve kalibrasyon eğrilerinin temeli. PMF’in iki koşulu (negatif değil, toplam 1) bir softmax’ı geçerli dağılım yapan koşullar.

9.5 İki Binom’un Toplamı: Konvolüsyon = Vandermonde

$X \sim \text{Bin}(n, p)$, $Y \sim \text{Bin}(m, p)$ bağımsız → $X + Y \sim \text{Bin}(n+m, p)$. Üç yol:

Story: $n + m$ bağımsız Bernoulli($p$) → Bin($n+m, p$).
Indicator toplamı: $X + Y$ = $n+m$ tane IID Bernoulli($p$).
PMF / konvolüsyon:

\[ P(X+Y=k) = \sum_j \binom{n}{j} p^j q^{n-j} \binom{m}{k-j} p^{k-j} q^{m-k+j} = p^k q^{n+m-k} \sum_j \binom{n}{j}\binom{m}{k-j} = \binom{n+m}{k} p^k q^{n+m-k} \]

Bu Vandermonde özdeşliğinin olasılıksal yüzü.

“in statistics, this is called a convolution.” — Blitzstein, 25:48

Builder Notu — Konvolüsyon Her Yerde

Bağımsız RV toplamı = dağılımların konvolüsyonu. ML’de her yerde: bağımsız gürültü eklemek (diffusion ileri süreci), bağımsız sayım birleştirme, FFT ile hızlı konvolüsyon ($O(n \log n)$). Ders 2 Vandermonde’un olasılıksal yüzü budur.

9.6 Hipergeometrik: Binom Sandığın Ama Olmayan

Binom’un kilit varsayımı: bağımsız denemeler + aynı $p$. İkisi de bozulursa binom değil.

Karşı örnek: 52 kartlık desteden 5 karttaki as sayısı. Yerine koymadan çekiyorsun → bağımlı. PMF:

\[ P(X = k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}} \]

Genel hâli (kavanozda $w$ beyaz, $b$ siyah, $n$ çek):

\[ P(X = k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{w+b}{n}} \]

Bu hipergeometrik dağılım. PMF’i ezberleme; hikâyesini (yerine koymadan, başarı sayısı) tanı.

“This distribution is called the hypergeometric.” — Blitzstein, 43:51

9.7 Hipergeometrik ↔︎ Binom: Büyük Popülasyon

Popülasyon çok büyük ve örneklem küçük olduğunda hipergeometrik ≈ binom. Bir milyar misketten 10 çekersen yerine koyup koymamak fark etmez.

from scipy.stats import hypergeom, binom
import matplotlib.pyplot as plt
import numpy as np

n_orn, p = 5, 0.4

fig, axes = plt.subplots(1, 2, figsize=(11, 4.5))

for ax, (W, B, baslik) in zip(axes,
                                [(8, 12, 'N=20 (küçük popülasyon)'),
                                 (40_000, 60_000, 'N=100k (büyük popülasyon)')]):
    N_tot = W + B
    ks = np.arange(0, n_orn + 1)
    hg = [hypergeom.pmf(k, N_tot, W, n_orn) for k in ks]
    bn = [binom.pmf(k, n_orn, p) for k in ks]
    w = 0.35
    ax.bar(ks - w/2, hg, w, color='#A51C30', label='Hipergeometrik', edgecolor='#6B0E1B')
    ax.bar(ks + w/2, bn, w, color='#2C5282', label='Binom', edgecolor='#1e3a5f')
    fark = max(abs(h - b) for h, b in zip(hg, bn))
    ax.set_title(f'{baslik}\nmaks fark = {fark:.4f}', fontsize=11)
    ax.set_xlabel('k', fontsize=11)
    ax.set_ylabel('olasılık', fontsize=11)
    ax.legend(loc='upper right', fontsize=10)
    ax.grid(True, axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

Şekil 9.2

Builder Notu — Minibatch IID Varsayımı

“Büyük popülasyonda hipergeometrik ≈ binom” sonucu, ML’de bir epoch’taki minibatch’leri (sonlu veri kümesinden yerine koymadan) pratikte i.i.d. (yerine koyarak) gibi ele alabilmemizin nedeni: veri kümesi batch’e göre çok büyükse sonlu-popülasyon düzeltmesi ihmal edilebilir.

9.8 Bu Dersin Özeti

Binom’a üç bakış: story, indicator toplamı, PMF. IID = bağımsız + özdeş.
RV ≠ dağılım: Fonksiyon vs olasılık profili. “$X = x$” bir olaydır.
CDF $F(x) = P(X \le x)$ her RV için; PMF kesikli için ($p_j \ge 0, \sum p_j = 1$).
Binom toplamı = 1 (binom teoremi). $\text{Bin}(n,p) + \text{Bin}(m,p) = \text{Bin}(n+m, p)$ = konvolüsyon (Vandermonde).
Hipergeometrik: yerine koymadan, $\binom{w}{k}\binom{b}{n-k}/\binom{w+b}{n}$. Büyük popülasyonda $\approx$ binom.
CDF şekilleri: sürekli düzgün, kesikli basamaklı.

Tek bir cümle

Rastgele değişken örnek uzayı sayılara eşleyen bir fonksiyondur; dağılımı PMF veya CDF ile tarif edilir. Aynı dağılımı story, gösterge toplamı, PMF gibi farklı temsillerle görmek ve “yerine koyarak mı koymadan mı” sorusu binom ile hipergeometriği ayırır.

9.9 Kontrol Soruları

Soru 1: 10 atış, X = tura sayısı. X’i gösterge toplamı olarak yaz, dağılımını söyle.

Cevap: $X = X_1 + \ldots + X_{10}$, $X_i \sim \text{Bernoulli}(1/2)$ IID. $X \sim \text{Binom}(10, 1/2)$.

Soru 2: 6 kırmızı 4 mavi, 3 çek. Kırmızı sayısı (a) yerine koyarak, (b) koymadan?

Cevap: (a) Binom(3, 0.6). (b) Hipergeometrik: $\binom{6}{k}\binom{4}{3-k}/\binom{10}{3}$.

Soru 3: P(X=0)=0.2, P(X=1)=0.5, P(X=2)=0.3. F(1.5)?

Cevap: $F(1{,}5) = P(X = 0) + P(X = 1) = 0{,}7$. CDF $x = 1$’de $0{,}7$’ye sıçrar, $x = 2$’ye kadar düz.

Soru 4: (Builder) 1M örnekten 32 batch yerine koymadan. Sınıf sayısı tam olarak ne, neden binom gibi?

Cevap: Tam hipergeometrik. Popülasyon (1M) batch’e (32) göre devasa → $\approx$ Binom(32, sınıf oranı). Sonlu-popülasyon düzeltmesi ihmal edilebilir.

9.10 Egzersizler

Egzersiz 1. 30 öğrenci, her biri %20 olasılıkla geç. (a) $X$’i gösterge toplamı yaz. (b) Dağılımı?

Egzersiz 2. 20 kişi (8 K, 12 E), 5’li komite, tam 3 kadın olasılığı (hipergeometrik).

Egzersiz 3. Adil zar, $P(X=k) = 1/6$. (a) $F(3)$? (b) $P(2 \le X \le 4)$?

Egzersiz 4. (Python — hiper vs binom karşılaştırma)

from scipy.stats import hypergeom, binom

n, p = 5, 0.4
for W, B in [(8, 12), (40_000, 60_000)]:
    N = W + B
    hg = [hypergeom.pmf(k, N, W, n) for k in range(n + 1)]
    bn = [binom.pmf(k, n, p) for k in range(n + 1)]
    fark = max(abs(h - b) for h, b in zip(hg, bn))
    print(f"N={N:>7}: maks |hiper - binom| = {fark:.4f}")

Egzersiz 5. (Sonraki ders) Bin($n, p$) = $n$ Bernoulli($p$) toplamı. Her göstergenin “ortalama” değeri $p$ ise, toplamın ortalaması ne olmalı? ($np$ tahminini gerekçelendir.)

9.11 Sonraki Ders İçin Hazırlık

Ders 9: Beklenti, Gösterge RD’ler, Doğrusallık

Beklentinin doğrusallığı: $E[X + Y] = E[X] + E[Y]$, bağımsız olmasalar bile. Bu, gösterge toplamı fikriyle birleşince binom, hipergeometrik, eşleşme beklentilerini tek satırda verir.

Ders 9 öncesi yapılacak

Egzersizleri çöz — özellikle 1 (gösterge ayrışımı) ve 4 (hiper vs binom).
“RV bir fonksiyon, dağılım onun profili” + “X+Y = konvolüsyon” sezgilerini pekiştir.
Ana cümleyi tekrar oku: “Rastgele değişken bir fonksiyondur…”

9.12 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Blitzstein’de
Binom’a üç bakış	story / indicator / PMF	1m28
IID	Bağımsız + özdeş dağılımlı	5m48
Indicator RV	$X_j = 1$ (başarı), $0$ (değil)	3m55
RV ≠ dağılım	Fonksiyon vs profili	6m35
{X=x} olaydır	$\{s : X(s) = x\}$	9m59
CDF	$F(x) = P(X \le x)$	11m05
PMF	$p_j \ge 0, \sum p_j = 1$	16m36
Binom toplamı	Bin($n,p$) + Bin($m,p$) = Bin($n+m,p$)	22m48
Konvolüsyon	RV toplamı; Vandermonde	25m48
Hipergeometrik	Yerine koymadan başarı sayısı	43m51
Hiper ≈ Binom	Büyük popülasyon, küçük örneklem	46m13

9.13 ML Bağlantıları Özeti

7 köprü

Indicator toplamı → beklentinin doğrusallığı; karmaşık sayım → 0/1 (Ders 9).
IID → ML temel varsayımı; minibatch.
RV ≠ dağılım → model (fonksiyon) vs öğrenilen dağılım.
CDF → inverse-transform sampling, kuantiller, ROC.
PMF koşulları → softmax geçerliliği.
Konvolüsyon → bağımsız toplam, diffusion gürültü, FFT.
Hiper ≈ Binom → minibatch’i i.i.d. ele almanın matematiksel temeli.

Tek bir şey alıp gideceksen

Bir dağılımı tek bir formülle değil, birden çok temsille (story, gösterge toplamı, PMF/CDF) tut — ve “yerine koyarak mı, koymadan mı” binom ile hipergeometriği ayırır (büyük popülasyonda birleşirler).

--- title: "Rastgele Değişkenler ve Dağılımları" subtitle: "PMF/CDF, IID, hipergeometrik vs binom" --- ::: {.callout-note title="Bölüm bilgisi"} - **Blitzstein'in videosu:** [YouTube — Lecture 8: Random Variables and Their Distributions](https://www.youtube.com/watch?v=k2BB0p8byGA) (≈50 dk) - **Okuma süresi:** ≈28 dk ::: ## Bu Derste Ne Var? {#sec-bu-derste} Rastgele değişkenleri derinleştiriyoruz: 1. **Binom'a üç bakış:** story, **gösterge (indicator)** toplamı, PMF + **IID**. 2. **Dağılımı tanımlamak:** PMF (kesikli) ve CDF (her tür). 3. **Hipergeometrik:** yerine koymadan örneklemede başarı sayısı. > *"there's actually three important ways to think of it ... the first one is the most important, because that's the story."* — Blitzstein, 1:28 ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **Indicator toplamı** $X = X_1 + \ldots + X_n$, beklenen değeri **doğrusallıkla** hesaplamanın anahtarı (Ders 9) — karmaşık sayımları 0/1'lere indirir. - **IID** = ML'in temel varsayımı; eğitim verisi ve minibatch örnekleri i.i.d. - **CDF** → **inverse-transform sampling**, ROC, kalibrasyon. - **Hipergeometrik vs Binom** = yerine koymadan vs koyarak; **minibatch ≈ binom** (büyük popülasyon). ::: ## Binom'a Üç Bakış + IID {#sec-uc-bakis-iid} **(1) Story:** $X$ = $n$ bağımsız Bernoulli($p$) denemesindeki başarı sayısı. **(2) Gösterge toplamı:** $$ X = X_1 + X_2 + \cdots + X_n, \qquad X_j = \begin{cases} 1 & j\text{. başarı} \\ 0 & \text{aksi} \end{cases} $$ Her $X_j$ bir **gösterge (indicator)**. $X_j$'ler **IID** — bağımsız ve özdeş dağılımlı. **(3) PMF:** $P(X = k) = \binom{n}{k} p^k q^{n-k}$. > *"IID means independent and identically distributed."* — Blitzstein, 5:48 ::: {.callout-tip title="Builder Notu — Gösterge Altın Değerinde"} **Indicator toplamı** ML'de altın değerinde: karmaşık bir sayımı (kaç doğru tahmin, kaç çakışma) 0/1'lerin toplamı olarak yazıp **beklentinin doğrusallığıyla** (Ders 9) tek satırda çözersin. IID ise tüm ML teorisinin zeminidir. ::: ## RV ≠ Dağılım; {X = x} Bir Olaydır {#sec-rv-dagilim-olay} Rastgele değişken bir **fonksiyon** ($X: S \to \mathbb{R}$); dağılım onun olasılık profili. Çok sayıda farklı RV aynı dağılıma sahip olabilir. > *"A very, very common confusion is to confuse random variables with distributions."* — Blitzstein, 6:35 "$X = 7$" bir **denklem değil**, **olay**: $\{s : X(s) = 7\}$. Benzer şekilde "$X \le x$" da bir olaydır — CDF'i tanımlamamıza izin verir. ::: {.callout-tip title="Builder Notu — Model vs Dağılım"} "RV bir fonksiyon, dağılım onun profili" ayrımı, ML'de **model** (somut ağ) ile o modelin temsil ettiği/öğrendiği **dağılım** ayrımına denk düşer. "$\{X = x\}$ bir olaydır" görüşü, logit'leri olay olasılıklarına (softmax) bağlamanın temeli. ::: ## Dağılımı Tanımlamak: CDF ve PMF {#sec-cdf-pmf} **CDF (birikimli dağılım fonksiyonu).** Her RV için tanımlı: $$ F(x) = P(X \le x) $$ $F$ artan; $x \to -\infty$'da $0$'a, $+\infty$'da $1$'e yaklaşır. **PMF (olasılık kütle fonksiyonu).** Yalnızca **kesikli** için: $$ p_j = P(X = a_j) \ge 0, \qquad \sum_j p_j = 1 $$ **Binom PMF toplamı = 1**, binom teoremiyle: $$ \sum_{k=0}^{n} \binom{n}{k} p^k q^{n-k} = (p+q)^n = 1 $$ ```{python} #| label: fig-pmf-cdf #| fig-cap: "Binom(10, 0.4) için PMF (sol, çubuklar) ve CDF (sağ, basamaklı). Kesikli RV'de CDF her değerde sıçrar, aralarda düz kalır. PMF'in toplam alanı = 1; CDF -∞'dan +∞'a 0→1." #| fig-width: 11 #| fig-height: 4.5 import math import numpy as np import matplotlib.pyplot as plt n, p = 10, 0.4 ks = np.arange(0, n + 1) pmf = np.array([math.comb(n, k) * p**k * (1 - p)**(n - k) for k in ks]) cdf = np.cumsum(pmf) fig, axes = plt.subplots(1, 2, figsize=(11, 4.5)) # PMF ax = axes[0] ax.bar(ks, pmf, color='#A51C30', edgecolor='#6B0E1B', alpha=0.85) for k, p_val in zip(ks, pmf): if p_val > 0.02: ax.text(k, p_val + 0.005, f'{p_val:.3f}', ha='center', fontsize=9, color='#6B0E1B') ax.set_xlabel('k', fontsize=12) ax.set_ylabel('P(X = k)', fontsize=12) ax.set_title('PMF: Binom(10, 0.4)', fontsize=12) ax.grid(True, axis='y', alpha=0.3) # CDF basamaklı ax = axes[1] x_step = np.concatenate([[-1], np.repeat(ks, 2), [n + 1]]) y_step = np.concatenate([[0, 0], np.repeat(cdf, 2)]) ax.plot(x_step, y_step, color='#2C5282', linewidth=2.2) for k, c in zip(ks, cdf): ax.plot(k, c, 'o', color='#2C5282', markersize=6) ax.set_xlabel('x', fontsize=12) ax.set_ylabel('F(x) = P(X ≤ x)', fontsize=12) ax.set_title('CDF: basamaklı (kesikli RV)', fontsize=12) ax.grid(True, alpha=0.3) ax.set_xlim(-0.5, n + 0.5) ax.set_ylim(-0.05, 1.05) plt.tight_layout() plt.show() ``` ::: {.callout-important title="Builder Notu — Inverse-Transform Sampling"} **CDF'in evrenselliği:** **inverse-transform sampling** — $U \sim \text{Uniform}(0, 1)$ üret, $F^{-1}(U)$ hesapla → $X$ dağılımından örnek. Herhangi bir dağılımdan örnekleme bunun üzerine kurulu. CDF ayrıca **kuantiller**, **ROC eğrisi** ve kalibrasyon eğrilerinin temeli. PMF'in iki koşulu (negatif değil, toplam 1) bir **softmax'ı geçerli dağılım** yapan koşullar. ::: ## İki Binom'un Toplamı: Konvolüsyon = Vandermonde {#sec-binom-toplam} $X \sim \text{Bin}(n, p)$, $Y \sim \text{Bin}(m, p)$ bağımsız → $X + Y \sim \text{Bin}(n+m, p)$. Üç yol: - **Story:** $n + m$ bağımsız Bernoulli($p$) → Bin($n+m, p$). - **Indicator toplamı:** $X + Y$ = $n+m$ tane IID Bernoulli($p$). - **PMF / konvolüsyon:** $$ P(X+Y=k) = \sum_j \binom{n}{j} p^j q^{n-j} \binom{m}{k-j} p^{k-j} q^{m-k+j} = p^k q^{n+m-k} \sum_j \binom{n}{j}\binom{m}{k-j} = \binom{n+m}{k} p^k q^{n+m-k} $$ Bu Vandermonde özdeşliğinin olasılıksal yüzü. > *"in statistics, this is called a convolution."* — Blitzstein, 25:48 ::: {.callout-tip title="Builder Notu — Konvolüsyon Her Yerde"} **Bağımsız RV toplamı = dağılımların konvolüsyonu.** ML'de her yerde: bağımsız gürültü eklemek (**diffusion** ileri süreci), bağımsız sayım birleştirme, **FFT ile hızlı konvolüsyon** ($O(n \log n)$). [Ders 2 Vandermonde](02-story-proof-aksiyomlar.qmd#sec-vandermonde)'un olasılıksal yüzü budur. ::: ## Hipergeometrik: Binom Sandığın Ama Olmayan {#sec-hipergeometrik} Binom'un kilit varsayımı: **bağımsız** denemeler + **aynı** $p$. İkisi de bozulursa binom değil. **Karşı örnek:** 52 kartlık desteden 5 karttaki **as sayısı**. Yerine koymadan çekiyorsun → bağımlı. PMF: $$ P(X = k) = \frac{\binom{4}{k}\binom{48}{5-k}}{\binom{52}{5}} $$ Genel hâli (kavanozda $w$ beyaz, $b$ siyah, $n$ çek): $$ P(X = k) = \frac{\binom{w}{k}\binom{b}{n-k}}{\binom{w+b}{n}} $$ Bu **hipergeometrik** dağılım. PMF'i ezberleme; **hikâyesini** (yerine koymadan, başarı sayısı) tanı. > *"This distribution is called the hypergeometric."* — Blitzstein, 43:51 ## Hipergeometrik ↔ Binom: Büyük Popülasyon {#sec-hiper-binom} Popülasyon **çok büyük** ve örneklem **küçük** olduğunda **hipergeometrik ≈ binom**. Bir milyar misketten 10 çekersen yerine koyup koymamak fark etmez. ```{python} #| label: fig-hiper-vs-binom #| fig-cap: "Hipergeometrik ↔ Binom yakınsaması. Aynı oran p=0.4, n=5 örneklem. Küçük popülasyonda (N=20) farklar belirgin; büyük popülasyonda (N=100k) birbirine oturur — minibatch'i 'i.i.d. binom' saymanın matematiksel temeli." #| fig-width: 11 #| fig-height: 4.5 from scipy.stats import hypergeom, binom import matplotlib.pyplot as plt import numpy as np n_orn, p = 5, 0.4 fig, axes = plt.subplots(1, 2, figsize=(11, 4.5)) for ax, (W, B, baslik) in zip(axes, [(8, 12, 'N=20 (küçük popülasyon)'), (40_000, 60_000, 'N=100k (büyük popülasyon)')]): N_tot = W + B ks = np.arange(0, n_orn + 1) hg = [hypergeom.pmf(k, N_tot, W, n_orn) for k in ks] bn = [binom.pmf(k, n_orn, p) for k in ks] w = 0.35 ax.bar(ks - w/2, hg, w, color='#A51C30', label='Hipergeometrik', edgecolor='#6B0E1B') ax.bar(ks + w/2, bn, w, color='#2C5282', label='Binom', edgecolor='#1e3a5f') fark = max(abs(h - b) for h, b in zip(hg, bn)) ax.set_title(f'{baslik}\nmaks fark = {fark:.4f}', fontsize=11) ax.set_xlabel('k', fontsize=11) ax.set_ylabel('olasılık', fontsize=11) ax.legend(loc='upper right', fontsize=10) ax.grid(True, axis='y', alpha=0.3) plt.tight_layout() plt.show() ``` ::: {.callout-important title="Builder Notu — Minibatch IID Varsayımı"} "Büyük popülasyonda hipergeometrik ≈ binom" sonucu, ML'de bir epoch'taki **minibatch'leri** (sonlu veri kümesinden **yerine koymadan**) pratikte **i.i.d.** (yerine koyarak) gibi ele alabilmemizin nedeni: veri kümesi batch'e göre çok büyükse sonlu-popülasyon düzeltmesi ihmal edilebilir. ::: ## Bu Dersin Özeti {#sec-ozet} 1. **Binom'a üç bakış:** story, indicator toplamı, PMF. **IID** = bağımsız + özdeş. 2. **RV ≠ dağılım:** Fonksiyon vs olasılık profili. "$X = x$" bir olaydır. 3. **CDF** $F(x) = P(X \le x)$ her RV için; **PMF** kesikli için ($p_j \ge 0, \sum p_j = 1$). 4. **Binom toplamı** = 1 (binom teoremi). $\text{Bin}(n,p) + \text{Bin}(m,p) = \text{Bin}(n+m, p)$ = konvolüsyon (Vandermonde). 5. **Hipergeometrik:** yerine koymadan, $\binom{w}{k}\binom{b}{n-k}/\binom{w+b}{n}$. Büyük popülasyonda $\approx$ binom. 6. **CDF şekilleri:** sürekli düzgün, kesikli basamaklı. ::: {.callout-important title="Tek bir cümle"} Rastgele değişken örnek uzayı sayılara eşleyen bir fonksiyondur; dağılımı **PMF veya CDF** ile tarif edilir. Aynı dağılımı **story, gösterge toplamı, PMF** gibi farklı temsillerle görmek ve "**yerine koyarak mı koymadan mı**" sorusu binom ile hipergeometriği ayırır. ::: ## Kontrol Soruları {#sec-sorular} ::: {.callout-note collapse="true" title="Soru 1: 10 atış, X = tura sayısı. X'i gösterge toplamı olarak yaz, dağılımını söyle."} **Cevap:** $X = X_1 + \ldots + X_{10}$, $X_i \sim \text{Bernoulli}(1/2)$ IID. $X \sim \text{Binom}(10, 1/2)$. ::: ::: {.callout-note collapse="true" title="Soru 2: 6 kırmızı 4 mavi, 3 çek. Kırmızı sayısı (a) yerine koyarak, (b) koymadan?"} **Cevap:** (a) **Binom**(3, 0.6). (b) **Hipergeometrik**: $\binom{6}{k}\binom{4}{3-k}/\binom{10}{3}$. ::: ::: {.callout-note collapse="true" title="Soru 3: P(X=0)=0.2, P(X=1)=0.5, P(X=2)=0.3. F(1.5)?"} **Cevap:** $F(1{,}5) = P(X = 0) + P(X = 1) = 0{,}7$. CDF $x = 1$'de $0{,}7$'ye sıçrar, $x = 2$'ye kadar düz. ::: ::: {.callout-note collapse="true" title="Soru 4: (Builder) 1M örnekten 32 batch yerine koymadan. Sınıf sayısı tam olarak ne, neden binom gibi?"} **Cevap:** Tam **hipergeometrik**. Popülasyon (1M) batch'e (32) göre devasa → $\approx$ **Binom**(32, sınıf oranı). Sonlu-popülasyon düzeltmesi ihmal edilebilir. ::: ## Egzersizler {#sec-egzersizler} **Egzersiz 1.** 30 öğrenci, her biri %20 olasılıkla geç. (a) $X$'i gösterge toplamı yaz. (b) Dağılımı? **Egzersiz 2.** 20 kişi (8 K, 12 E), 5'li komite, tam 3 kadın olasılığı (hipergeometrik). **Egzersiz 3.** Adil zar, $P(X=k) = 1/6$. (a) $F(3)$? (b) $P(2 \le X \le 4)$? **Egzersiz 4.** *(Python — hiper vs binom karşılaştırma)* ```{python} #| label: ex-hiper-binom #| code-fold: false from scipy.stats import hypergeom, binom n, p = 5, 0.4 for W, B in [(8, 12), (40_000, 60_000)]: N = W + B hg = [hypergeom.pmf(k, N, W, n) for k in range(n + 1)] bn = [binom.pmf(k, n, p) for k in range(n + 1)] fark = max(abs(h - b) for h, b in zip(hg, bn)) print(f"N={N:>7}: maks |hiper - binom| = {fark:.4f}") ``` **Egzersiz 5.** *(Sonraki ders)* Bin($n, p$) = $n$ Bernoulli($p$) toplamı. Her göstergenin "ortalama" değeri $p$ ise, toplamın ortalaması ne olmalı? ($np$ tahminini gerekçelendir.) ## Sonraki Ders İçin Hazırlık {#sec-sonraki} **Ders 9: Beklenti, Gösterge RD'ler, Doğrusallık** **Beklentinin doğrusallığı**: $E[X + Y] = E[X] + E[Y]$, **bağımsız olmasalar bile**. Bu, gösterge toplamı fikriyle birleşince binom, hipergeometrik, eşleşme beklentilerini tek satırda verir. ::: {.callout-warning title="Ders 9 öncesi yapılacak"} - Egzersizleri çöz — özellikle 1 (gösterge ayrışımı) ve 4 (hiper vs binom). - "RV bir fonksiyon, dağılım onun profili" + "X+Y = konvolüsyon" sezgilerini pekiştir. - Ana cümleyi tekrar oku: *"Rastgele değişken bir fonksiyondur…"* ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-sheet} | Kavram | Tanım | Blitzstein'de | |--------|-------|---------------| | **Binom'a üç bakış** | story / indicator / PMF | 1m28 | | **IID** | Bağımsız + özdeş dağılımlı | 5m48 | | **Indicator RV** | $X_j = 1$ (başarı), $0$ (değil) | 3m55 | | **RV ≠ dağılım** | Fonksiyon vs profili | 6m35 | | **{X=x} olaydır** | $\{s : X(s) = x\}$ | 9m59 | | **CDF** | $F(x) = P(X \le x)$ | 11m05 | | **PMF** | $p_j \ge 0, \sum p_j = 1$ | 16m36 | | **Binom toplamı** | Bin($n,p$) + Bin($m,p$) = Bin($n+m,p$) | 22m48 | | **Konvolüsyon** | RV toplamı; Vandermonde | 25m48 | | **Hipergeometrik** | Yerine koymadan başarı sayısı | 43m51 | | **Hiper ≈ Binom** | Büyük popülasyon, küçük örneklem | 46m13 | ## ML Bağlantıları Özeti {#sec-ml-baglantilar} ::: {.callout-tip title="7 köprü"} 1. **Indicator toplamı** → beklentinin doğrusallığı; karmaşık sayım → 0/1 (Ders 9). 2. **IID** → ML temel varsayımı; minibatch. 3. **RV ≠ dağılım** → model (fonksiyon) vs öğrenilen dağılım. 4. **CDF** → inverse-transform sampling, kuantiller, ROC. 5. **PMF koşulları** → softmax geçerliliği. 6. **Konvolüsyon** → bağımsız toplam, **diffusion gürültü**, FFT. 7. **Hiper ≈ Binom** → minibatch'i i.i.d. ele almanın matematiksel temeli. ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} Bir dağılımı tek bir formülle değil, **birden çok temsille** (story, gösterge toplamı, PMF/CDF) tut — ve "**yerine koyarak mı, koymadan mı**" binom ile hipergeometriği ayırır (büyük popülasyonda birleşirler). :::