26 Sıra İstatistikleri ve Koşullu Beklenti

Banka-postane, kuantiller, E(X|A), LOTE

Bölüm bilgisi

Blitzstein’in videosu: YouTube — Lecture 25: Order Statistics and Conditional Expectations (≈48 dk)
Okuma süresi: ≈35 dk

26.1 Bu Derste Ne Var?

Banka-postane: Gamma → Beta + bağımsızlık.
Beta sabiti: $B(a,b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$.
Sıra istatistikleri: min, max, medyan; CDF, PDF.
Uniform sıra: $U_{(j)} \sim$ Beta($j, n-j+1$).
Koşullu beklenti: $E(X | A)$, LOTE.

Builder Notu — ML Köprüleri

Gamma → Beta/Dirichlet (toplam ⊥ oran) → LDA örnekleme.
E(oran) ≠ oran(E) → ratio estimator bias (self-normalized importance sampling).
Sıra istatistikleri → kuantil regresyon, robust (medyan), top-k, k-NN.
Koşullu beklenti → regresyon $E(Y|X)$, RL value fonksiyonu $V(s)$.
LOTE → Bellman denklemi $V(s) = r + E(V(s'))$.

26.2 Banka-Postane: Gamma → Beta

$X \sim$ Gamma($a, \lambda$), $Y \sim$ Gamma($b, \lambda$) bağımsız. $T = X + Y$, $W = X/(X+Y)$.

Jacobian ile joint:

\[ f_{T,W}(t, w) = \underbrace{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} w^{a-1}(1-w)^{b-1}}_{\text{Beta}(a,b)} \cdot \underbrace{\frac{1}{\Gamma(a+b)} t^{a+b-1} e^{-t}}_{\text{Gamma}(a+b)} \]

Çarpanlara ayrıldı → $T \perp W$ (şaşırtıcı!).

Beta normalleştirme bedavaya:

\[ B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} \]

26.3 E(oran) = oran(E) Tuzağı

$W \perp T$ olduğundan:

\[ E(W) \cdot E(T) = E(W \cdot T) = E(X) \;\Rightarrow\; E(W) = \frac{E(X)}{E(X+Y)} = \frac{a}{a+b} \]

Genelde YANLIŞ! Burada istisnai olarak bağımsızlık sayesinde.

“E of numerator over E of denominator, usually that’s completely wrong.” — Blitzstein, 20:34

Builder Notu — Ratio Estimator Bias

$E(\text{pay}/\text{payda}) \ne E(\text{pay})/E(\text{payda})$ genelde. Self-normalized importance sampling, normalize ödüller — pay/payda ilişkiliyse yanlılık. Jensen / delta-method düzeltmesi gerekir.

26.4 Sıra İstatistikleri

$X_{(1)} \le X_{(2)} \le \ldots \le X_{(n)}$. iid’den doğsa da bağımlı.

CDF (binom):

\[ F_{X_{(j)}}(x) = P(\text{en az } j \text{ tane} \le x) = \sum_{k=j}^{n} \binom{n}{k} F(x)^k (1 - F(x))^{n-k} \]

PDF (resimle, doğrudan):

\[ f_{X_{(j)}}(x) = n \binom{n-1}{j-1} F(x)^{j-1}(1 - F(x))^{n-j} f(x) \]

Builder Notu — Kuantil & Robust

Medyan, IQR, kuantil regresyon (pinball loss), top-k, k-NN mesafeleri. Ekstrem değer teorisi (nadir olay, risk). “iid → bağımlı” uyarısı: sıralanmış verilerde kovaryans!

26.5 Uniform Sıra İstatistikleri = Beta

$U \sim$ Unif(0,1), $F(x) = x$, $f(x) = 1$:

\[ f_{U_{(j)}}(x) = n \binom{n-1}{j-1} x^{j-1}(1-x)^{n-j} \;\Rightarrow\; U_{(j)} \sim \text{Beta}(j, n-j+1) \]

Max $\sim$ Beta($n, 1$), min $\sim$ Beta($1, n$).

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta

x = np.linspace(0.001, 0.999, 200)
n = 5

fig, ax = plt.subplots(figsize=(10, 5))
for j, c in zip(range(1, n+1), ['#A51C30', '#DD6B20', '#1f2937', '#2C5282', '#6B46C1']):
    pdf = beta.pdf(x, j, n - j + 1)
    ax.plot(x, pdf, color=c, linewidth=2.2,
            label=f'U_({j}) ~ Beta({j}, {n-j+1}), E={j/(n+1):.2f}')
ax.set_xlabel('x', fontsize=12)
ax.set_ylabel('f(x)', fontsize=12)
ax.set_title(f'n={n} iid Uniform sıra istatistikleri = Beta', fontsize=12)
ax.legend(fontsize=10)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

Şekil 26.1

26.6 Koşullu Beklenti ve LOTE

$E(X | A)$ = $A$ verildiğinde $X$’in beklentisi. Toplam beklenti yasası (LOTE):

\[ E(X) = E(X \mid A) P(A) + E(X \mid A^c) P(A^c) \]

Örnek (Geometrik): Zar atışı, ilk 6’ya kadar $X$. İlk atışa koşulla:

\[ E(X) = 1 \cdot \tfrac{1}{6} + (1 + E(X)) \cdot \tfrac{5}{6} \;\Rightarrow\; E(X) = 6 \]

Builder Notu — Bellman’ın Temeli

Koşullu beklenti $E(Y | X)$ = ML’de regresyon (en iyi kare-hata tahmincisi). RL’de değer fonksiyonu $V(s) = E(\text{getiri} | s)$. LOTE / ilk-adım analizi = Bellman denklemi $V(s) = r + E(V(s'))$ — değer iterasyonu.

26.7 Bu Dersin Özeti

Banka-postane: $T \perp W$, $W \sim$ Beta, $T \sim$ Gamma.
Beta sabiti: $B(a,b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$.
Sıra ist.: PDF $= n\binom{n-1}{j-1} F^{j-1}(1-F)^{n-j} f$.
Uniform: $U_{(j)} \sim$ Beta($j, n-j+1$).
LOTE: $E(X) = \sum E(X|A_i) P(A_i)$.

Tek bir cümle

Bağımsız Gamma’lar toplam ⊥ oran → Beta’nın Γ-temelli sabiti. Sıra istatistikleri kuantillerin matematiği (Uniform → Beta). Koşullu beklenti + LOTE = Bellman’ın atası, regresyonun tanımı.

26.8 Kontrol Soruları

Soru 1: X~Γ(3,λ), Y~Γ(2,λ). (a) T? (b) W? (c) E(W)? T⊥W?

Cevap: (a) Γ(5, λ). (b) Beta(3, 2). (c) $3/5$. T ⊥ W ✓.

Soru 2: iid F. (a) max CDF? (b) min CDF?

Cevap: (a) $F(x)^n$. (b) $1 - (1-F(x))^n$.

Soru 3: U_1..U_5 iid Unif. U_(3) (medyan)?

Cevap: Beta(3, 3). $E = 1/2$.

Soru 4: (Builder) Zar, ilk 6’ya kadar atış? LOTE.

Cevap: $E(X) = (1/6) \cdot 1 + (5/6)(1 + E(X))$ → $E(X) = 6$. First-step = Bellman.

26.9 Egzersizler

Egzersiz 1. X~Γ(2,1), Y~Γ(3,1). (a) $X/(X+Y)$ dağılımı + E. (b) $X+Y$. (c) Cov$(T, W)$?

Egzersiz 2. iid Exp(λ). Min ~ Exp($n\lambda$)? “En hızlı sunucu” sezgisi.

Egzersiz 3. $U_1, \ldots, U_{10}$ iid Unif. $U_{(3)}, U_{(10)}$ E?

Egzersiz 4. (Python — Banka-postane + Uniform sıra)

import numpy as np
rng = np.random.default_rng(0)
N = 500_000

# Gamma-Beta: T, W bağımsız?
X = rng.gamma(2, 1, N); Y = rng.gamma(3, 1, N)
T = X + Y; W = X / (X + Y)
print(f"corr(T, W) = {np.corrcoef(T, W)[0,1]:.4f} (≈ 0, bağımsız)")
print(f"E(W) = {W.mean():.4f} (teori 2/5 = 0.4)")

# U_(3) of 10 ~ Beta(3, 8)?
U = rng.uniform(0, 1, (N, 10))
U3 = np.sort(U, axis=1)[:, 2]
print(f"E(U_(3)) = {U3.mean():.4f} (teori 3/11 = {3/11:.4f})")

Egzersiz 5. (Sonraki ders) $E(Y|X)$ bir RV (X’in fonksiyonu). Tower: $E(E(Y|X)) = E(Y)$.

26.10 Sonraki Ders İçin Hazırlık

Ders 26: Koşullu Beklentiye Devam — $E(Y|X)$ rastgele değişken; tower property.

Ders 26 öncesi yapılacak

Egzersiz 5 (E(Y|X) RV) çöz.
LOTE + first-step analizini hatırla.

26.11 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Blitzstein’de
Banka-postane	$T \perp W$; Gamma + Beta	0m57
B(a,b)	$\Gamma(a)\Gamma(b)/\Gamma(a+b)$	15m39
E(oran) tuzağı	İstisna: $W \perp T$	17m22
Sıra ist.	iid → bağımlı	24m41
CDF X_(j)	$\sum \binom{n}{k} F^k(1-F)^{n-k}$	34m32
PDF X_(j)	$n\binom{n-1}{j-1} F^{j-1}(1-F)^{n-j} f$	39m05
U_(j)	Beta($j, n-j+1$)	42m24
LOTE	$E = \sum E(X\|A_i) P(A_i)$	45m01

26.12 ML Bağlantıları Özeti

7 köprü

Gamma → Beta/Dirichlet → LDA.
E(oran) ≠ oran(E) → ratio estimator bias.
Sıra ist. → kuantil, robust, top-k.
U_(j) → Beta → kuantil belirsizliği.
Ekstrem değer → risk, nadir olay.
$E(Y|X)$ → regresyon, RL value.
LOTE = Bellman atası.

Tek bir şey alıp gideceksen

Banka-postane ($T \perp W$) Beta sabitini verir. Sıra istatistikleri kuantillerin matematiği. LOTE Bellman’ın atası.

--- title: "Sıra İstatistikleri ve Koşullu Beklenti" subtitle: "Banka-postane, kuantiller, E(X|A), LOTE" --- ::: {.callout-note title="Bölüm bilgisi"} - **Blitzstein'in videosu:** [YouTube — Lecture 25: Order Statistics and Conditional Expectations](https://www.youtube.com/watch?v=2LR5JYbhyjg) (≈48 dk) - **Okuma süresi:** ≈35 dk ::: ## Bu Derste Ne Var? {#sec-bu-derste} 1. **Banka-postane:** Gamma → Beta + bağımsızlık. 2. **Beta sabiti:** $B(a,b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$. 3. **Sıra istatistikleri:** min, max, medyan; CDF, PDF. 4. **Uniform sıra:** $U_{(j)} \sim$ Beta($j, n-j+1$). 5. **Koşullu beklenti:** $E(X | A)$, LOTE. ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **Gamma → Beta/Dirichlet (toplam ⊥ oran)** → **LDA** örnekleme. - **E(oran) ≠ oran(E)** → **ratio estimator bias** (self-normalized importance sampling). - **Sıra istatistikleri** → kuantil regresyon, **robust** (medyan), top-k, k-NN. - **Koşullu beklenti** → **regresyon** $E(Y|X)$, **RL value fonksiyonu** $V(s)$. - **LOTE** → **Bellman denklemi** $V(s) = r + E(V(s'))$. ::: ## Banka-Postane: Gamma → Beta {#sec-banka-postane} $X \sim$ Gamma($a, \lambda$), $Y \sim$ Gamma($b, \lambda$) bağımsız. $T = X + Y$, $W = X/(X+Y)$. Jacobian ile joint: $$ f_{T,W}(t, w) = \underbrace{\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} w^{a-1}(1-w)^{b-1}}_{\text{Beta}(a,b)} \cdot \underbrace{\frac{1}{\Gamma(a+b)} t^{a+b-1} e^{-t}}_{\text{Gamma}(a+b)} $$ **Çarpanlara ayrıldı → $T \perp W$** (şaşırtıcı!). **Beta normalleştirme bedavaya:** $$ B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} $$ ## E(oran) = oran(E) Tuzağı {#sec-oran-tuzak} $W \perp T$ olduğundan: $$ E(W) \cdot E(T) = E(W \cdot T) = E(X) \;\Rightarrow\; E(W) = \frac{E(X)}{E(X+Y)} = \frac{a}{a+b} $$ **Genelde YANLIŞ!** Burada **istisnai** olarak bağımsızlık sayesinde. > *"E of numerator over E of denominator, usually that's completely wrong."* — Blitzstein, 20:34 ::: {.callout-important title="Builder Notu — Ratio Estimator Bias"} **$E(\text{pay}/\text{payda}) \ne E(\text{pay})/E(\text{payda})$** genelde. **Self-normalized importance sampling**, normalize ödüller — pay/payda ilişkiliyse yanlılık. **Jensen / delta-method** düzeltmesi gerekir. ::: ## Sıra İstatistikleri {#sec-sira-ist} $X_{(1)} \le X_{(2)} \le \ldots \le X_{(n)}$. iid'den doğsa da **bağımlı**. **CDF (binom):** $$ F_{X_{(j)}}(x) = P(\text{en az } j \text{ tane} \le x) = \sum_{k=j}^{n} \binom{n}{k} F(x)^k (1 - F(x))^{n-k} $$ **PDF (resimle, doğrudan):** $$ f_{X_{(j)}}(x) = n \binom{n-1}{j-1} F(x)^{j-1}(1 - F(x))^{n-j} f(x) $$ ::: {.callout-tip title="Builder Notu — Kuantil & Robust"} **Medyan, IQR, kuantil regresyon (pinball loss), top-k, k-NN mesafeleri**. **Ekstrem değer teorisi** (nadir olay, risk). "iid → bağımlı" uyarısı: sıralanmış verilerde kovaryans! ::: ## Uniform Sıra İstatistikleri = Beta {#sec-uniform-sira} $U \sim$ Unif(0,1), $F(x) = x$, $f(x) = 1$: $$ f_{U_{(j)}}(x) = n \binom{n-1}{j-1} x^{j-1}(1-x)^{n-j} \;\Rightarrow\; U_{(j)} \sim \text{Beta}(j, n-j+1) $$ **Max** $\sim$ Beta($n, 1$), **min** $\sim$ Beta($1, n$). ```{python} #| label: fig-uniform-sira-beta #| fig-cap: "n=5 iid Uniform sıra istatistikleri. U_(1) min (Beta(1,5)) sola yakın, U_(3) medyan (Beta(3,3)) ortada simetrik, U_(5) max (Beta(5,1)) sağa. Sıralı veride kuantil dağılımı = Beta." #| fig-width: 10 #| fig-height: 5 import numpy as np import matplotlib.pyplot as plt from scipy.stats import beta x = np.linspace(0.001, 0.999, 200) n = 5 fig, ax = plt.subplots(figsize=(10, 5)) for j, c in zip(range(1, n+1), ['#A51C30', '#DD6B20', '#1f2937', '#2C5282', '#6B46C1']): pdf = beta.pdf(x, j, n - j + 1) ax.plot(x, pdf, color=c, linewidth=2.2, label=f'U_({j}) ~ Beta({j}, {n-j+1}), E={j/(n+1):.2f}') ax.set_xlabel('x', fontsize=12) ax.set_ylabel('f(x)', fontsize=12) ax.set_title(f'n={n} iid Uniform sıra istatistikleri = Beta', fontsize=12) ax.legend(fontsize=10) ax.grid(True, alpha=0.3) plt.tight_layout() plt.show() ``` ## Koşullu Beklenti ve LOTE {#sec-kosullu-beklenti} $E(X | A)$ = $A$ verildiğinde $X$'in beklentisi. **Toplam beklenti yasası (LOTE):** $$ E(X) = E(X \mid A) P(A) + E(X \mid A^c) P(A^c) $$ **Örnek (Geometrik):** Zar atışı, ilk 6'ya kadar $X$. İlk atışa koşulla: $$ E(X) = 1 \cdot \tfrac{1}{6} + (1 + E(X)) \cdot \tfrac{5}{6} \;\Rightarrow\; E(X) = 6 $$ ::: {.callout-important title="Builder Notu — Bellman'ın Temeli"} **Koşullu beklenti $E(Y | X)$** = ML'de **regresyon** (en iyi kare-hata tahmincisi). **RL'de değer fonksiyonu** $V(s) = E(\text{getiri} | s)$. **LOTE / ilk-adım analizi** = **Bellman denklemi** $V(s) = r + E(V(s'))$ — değer iterasyonu. ::: ## Bu Dersin Özeti {#sec-ozet} 1. **Banka-postane:** $T \perp W$, $W \sim$ Beta, $T \sim$ Gamma. 2. **Beta sabiti:** $B(a,b) = \Gamma(a)\Gamma(b)/\Gamma(a+b)$. 3. **Sıra ist.:** PDF $= n\binom{n-1}{j-1} F^{j-1}(1-F)^{n-j} f$. 4. **Uniform:** $U_{(j)} \sim$ Beta($j, n-j+1$). 5. **LOTE:** $E(X) = \sum E(X|A_i) P(A_i)$. ::: {.callout-important title="Tek bir cümle"} Bağımsız Gamma'lar **toplam ⊥ oran** → Beta'nın Γ-temelli sabiti. **Sıra istatistikleri** kuantillerin matematiği (Uniform → Beta). **Koşullu beklenti + LOTE** = **Bellman'ın atası**, regresyonun tanımı. ::: ## Kontrol Soruları {#sec-sorular} ::: {.callout-note collapse="true" title="Soru 1: X~Γ(3,λ), Y~Γ(2,λ). (a) T? (b) W? (c) E(W)? T⊥W?"} **Cevap:** (a) Γ(5, λ). (b) Beta(3, 2). (c) $3/5$. **T ⊥ W** ✓. ::: ::: {.callout-note collapse="true" title="Soru 2: iid F. (a) max CDF? (b) min CDF?"} **Cevap:** (a) $F(x)^n$. (b) $1 - (1-F(x))^n$. ::: ::: {.callout-note collapse="true" title="Soru 3: U_1..U_5 iid Unif. U_(3) (medyan)?"} **Cevap:** Beta(3, 3). $E = 1/2$. ::: ::: {.callout-note collapse="true" title="Soru 4: (Builder) Zar, ilk 6'ya kadar atış? LOTE."} **Cevap:** $E(X) = (1/6) \cdot 1 + (5/6)(1 + E(X))$ → $E(X) = 6$. **First-step = Bellman**. ::: ## Egzersizler {#sec-egzersizler} **Egzersiz 1.** X~Γ(2,1), Y~Γ(3,1). (a) $X/(X+Y)$ dağılımı + E. (b) $X+Y$. (c) Cov$(T, W)$? **Egzersiz 2.** iid Exp(λ). Min ~ Exp($n\lambda$)? "En hızlı sunucu" sezgisi. **Egzersiz 3.** $U_1, \ldots, U_{10}$ iid Unif. $U_{(3)}, U_{(10)}$ E? **Egzersiz 4.** *(Python — Banka-postane + Uniform sıra)* ```{python} #| label: ex-sira #| code-fold: false import numpy as np rng = np.random.default_rng(0) N = 500_000 # Gamma-Beta: T, W bağımsız? X = rng.gamma(2, 1, N); Y = rng.gamma(3, 1, N) T = X + Y; W = X / (X + Y) print(f"corr(T, W) = {np.corrcoef(T, W)[0,1]:.4f} (≈ 0, bağımsız)") print(f"E(W) = {W.mean():.4f} (teori 2/5 = 0.4)") # U_(3) of 10 ~ Beta(3, 8)? U = rng.uniform(0, 1, (N, 10)) U3 = np.sort(U, axis=1)[:, 2] print(f"E(U_(3)) = {U3.mean():.4f} (teori 3/11 = {3/11:.4f})") ``` **Egzersiz 5.** *(Sonraki ders)* $E(Y|X)$ bir RV (X'in fonksiyonu). **Tower:** $E(E(Y|X)) = E(Y)$. ## Sonraki Ders İçin Hazırlık {#sec-sonraki} **Ders 26: Koşullu Beklentiye Devam** — $E(Y|X)$ rastgele değişken; tower property. ::: {.callout-warning title="Ders 26 öncesi yapılacak"} - Egzersiz 5 (E(Y|X) RV) çöz. - LOTE + first-step analizini hatırla. ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-sheet} | Kavram | Tanım | Blitzstein'de | |--------|-------|---------------| | **Banka-postane** | $T \perp W$; Gamma + Beta | 0m57 | | **B(a,b)** | $\Gamma(a)\Gamma(b)/\Gamma(a+b)$ | 15m39 | | **E(oran) tuzağı** | İstisna: $W \perp T$ | 17m22 | | **Sıra ist.** | iid → bağımlı | 24m41 | | **CDF X_(j)** | $\sum \binom{n}{k} F^k(1-F)^{n-k}$ | 34m32 | | **PDF X_(j)** | $n\binom{n-1}{j-1} F^{j-1}(1-F)^{n-j} f$ | 39m05 | | **U_(j)** | Beta($j, n-j+1$) | 42m24 | | **LOTE** | $E = \sum E(X|A_i) P(A_i)$ | 45m01 | ## ML Bağlantıları Özeti {#sec-ml-baglantilar} ::: {.callout-tip title="7 köprü"} 1. **Gamma → Beta/Dirichlet** → **LDA**. 2. **E(oran) ≠ oran(E)** → **ratio estimator bias**. 3. **Sıra ist.** → kuantil, robust, top-k. 4. **U_(j) → Beta** → kuantil belirsizliği. 5. **Ekstrem değer** → risk, nadir olay. 6. **$E(Y|X)$** → **regresyon**, RL value. 7. **LOTE = Bellman atası**. ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} **Banka-postane** ($T \perp W$) Beta sabitini verir. **Sıra istatistikleri** kuantillerin matematiği. **LOTE** Bellman'ın atası. :::