import numpy as np
rng = np.random.default_rng(0)
# Multinomial Cov(X_1, X_2) = -n p_1 p_2
n = 50; p = [0.5, 0.3, 0.2]
D = rng.multinomial(n, p, size=200_000)
cov = np.cov(D[:, 0], D[:, 1])[0, 1]
print(f"Mult Cov(X_1, X_2) ≈ {cov:.3f} teorik {-n*p[0]*p[1]}")
# İlişkisiz ama bağımlı: X=cos U, Y=sin U
U = rng.uniform(0, 2*np.pi, 500_000)
X, Y = np.cos(U), np.sin(U)
print(f"corr(X, Y) ≈ {np.corrcoef(X, Y)[0,1]:.4f} (≈ 0, ilişkisiz)")
print(f"X² + Y² = {np.mean(X**2 + Y**2):.4f} (= 1, tam bağımlı!)")22 Kovaryans ve Korelasyon
Toplamın varyansı, [-1,1] = Cauchy-Schwarz = kosinüs benzerliği
- Blitzstein’in videosu: YouTube — Lecture 21: Covariance and Correlation (≈49 dk)
- Okuma süresi: ≈35 dk
22.1 Bu Derste Ne Var?
- Kovaryans: \(\text{Cov}(X,Y) = E(XY) - E(X)E(Y)\); bilineer.
- Toplamın varyansı: \(\text{Var}(\sum X_i) = \sum \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j)\).
- Bağımsız ⇒ ilişkisiz (Cov = 0); TERSİ YANLIŞ — \(Z, Z^2\) ilişkisiz ama tam bağımlı.
- Korelasyon: \(\text{Cov}/(\sigma_X \sigma_Y) \in [-1, 1]\) (Cauchy-Schwarz) = kosinüs benzerliği.
- Kovaryans matrisi \(\Sigma\) → PCA özvektörleri, Mahalanobis, whitening.
- Bilineerlik → \(\text{Cov}(AX) = A\Sigma A^T\); portföy varyansı \(w^T \Sigma w\).
- Toplamın varyansı → ensemble / bagging variance reduction; korelasyon bir taban koyar.
- İlişkisiz ≠ bağımsız → PCA vs ICA; korelasyon yalnız doğrusal.
- Korelasyon \([-1,1]\) = Cauchy-Schwarz = kosinüs benzerliği (cosine similarity).
22.2 Kovaryans: Tanım ve Bilineerlik
\[ \text{Cov}(X, Y) = E[(X - EX)(Y - EY)] = E(XY) - E(X)E(Y) \]
Özellikler:
\[ \text{Cov}(X, X) = \text{Var}(X), \quad \text{Cov}(X, c) = 0, \quad \text{Cov}(cX, Y) = c\,\text{Cov}(X, Y) \]
Bilineerlik:
\[ \text{Cov}\!\left(\sum_i a_i X_i, \sum_j b_j Y_j\right) = \sum_i \sum_j a_i b_j\, \text{Cov}(X_i, Y_j) \]
Bilineerlik = kovaryans matrisi cebrinin temeli. Doğrusal \(Y = AX\) altında \(\text{Cov}(Y) = A\,\text{Cov}(X)\,A^T\). Portföy varyansı, doğrusal model belirsizliği, whitening.
22.3 Toplamın Varyansı
\[ \text{Var}\!\left(\sum_{i=1}^n X_i\right) = \sum_i \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j) \]
Kovaryanslar 0 → varyanslar toplanır. Ensemble/bagging’in kalbi.
22.4 Bağımsız ⇒ İlişkisiz (Tersi YANLIŞ)
Karşı-örnek: \(Z \sim N(0,1)\), \(X = Z\), \(Y = Z^2\).
\[ \text{Cov}(X, Y) = E(Z^3) - 0 \cdot 1 = 0 \quad \text{(ilişkisiz)} \]
Ama \(Y = X^2\) → tam bağımlı! Korelasyon yalnızca doğrusal ilişkiyi ölçer.
“a common mistake is to show the covariance is 0, and then just leap to the conclusion that they’re independent.” — Blitzstein, 19:23
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
N = 1000
X = rng.standard_normal(N)
Y = X**2
corr = np.corrcoef(X, Y)[0, 1]
fig, ax = plt.subplots(figsize=(10, 4.5))
ax.scatter(X, Y, s=10, alpha=0.5, color='#A51C30')
xs = np.linspace(-3, 3, 100)
ax.plot(xs, xs**2, color='#1f2937', linewidth=2.5, label='Y = X² (tam bağımlı)')
ax.set_xlabel('X', fontsize=12)
ax.set_ylabel('Y = X²', fontsize=12)
ax.set_title(f'İlişkisiz ama bağımlı! corr(X, Y) ≈ {corr:.3f} ≈ 0',
fontsize=12)
ax.legend(fontsize=12)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()PCA / whitening bileşenleri ilişkisiz yapar ama bağımsız yapmaz. ICA gerçek bağımsızlığı hedefler. Doğrusal-olmayan bağ için mutual information, HSIC, distance correlation gerekir.
22.5 Korelasyon: \([-1, 1]\) ve Cauchy-Schwarz
\[ \text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X\, \sigma_Y} \]
Birimsiz. \([-1, 1]\) sınırı = Cauchy-Schwarz:
\[ \text{Var}(X \pm Y) = 2 \pm 2\rho \ge 0 \;\Rightarrow\; -1 \le \rho \le 1 \]
Korelasyon birimsiz + \([-1, 1]\) = kosinüs benzerliği: merkezlenmiş vektörlerin normalize iç çarpımı. Cauchy-Schwarz ile aynı. Embedding benzerliği, öneri sistemleri, feature selection.
22.6 Multinomial Kovaryansı
\(X \sim\) Mult(\(n, \vec{p}\)). Toplam \(n\) sabit → kategoriler yarışır → negatif:
\[ \text{Cov}(X_i, X_j) = -n p_i p_j \quad (i \ne j) \]
İspat (lumping): \(X_1 + X_2 \sim\) Bin(\(n, p_1+p_2\)). Var’lar eşitle, çöz.
Multinomial negatif kovaryansı softmax çıktılarının doğası: olasılıklar 1’e toplandığından sınıflar yarışır. Çok-sınıflı modellerin gradyanlarında ve kalibrasyonunda görülür.
22.7 Binom + Hipergeometrik Varyansı (Göstergelerle)
Gösterge kimlikleri: \(I_A^2 = I_A\), \(I_A I_B = I_{A \cap B}\).
Binom: \(X = \sum I_j\) bağımsız → \(\text{Var}(X) = \sum \text{Var}(I_j) = npq\).
Hipergeometrik (yerine koymadan): Göstergeler bağımlı → negatif Cov + sonlu-popülasyon düzeltmesi.
\[ \text{Cov}(I_1, I_2) = \frac{w(w-1)}{(w+b)(w+b-1)} - \left(\frac{w}{w+b}\right)^2 < 0 \]
22.8 Bu Dersin Özeti
- Cov: \(E(XY) - E(X)E(Y)\); bilineer.
- Toplamın varyansı: \(\sum \text{Var} + 2 \sum \text{Cov}\).
- Bağımsız ⇒ ilişkisiz, tersi yanlış.
- Corr \(\in [-1, 1]\) (Cauchy-Schwarz).
- Mult Cov: \(-n p_i p_j\) (negatif).
- Binom Var: \(npq\). Hipergeometrik: bağımlı göstergeler.
Kovaryans birlikte değişimi ölçer, toplamın varyansına izin verir; korelasyon birimsiz \([-1, 1]\) = Cauchy-Schwarz = kosinüs benzerliği. Korelasyon yalnız doğrusal — ilişkisiz \(\ne\) bağımsız; gerçek bağımsızlık (ICA, MI) daha güçlüdür.
22.9 Kontrol Soruları
Cevap: \(4 \cdot 4 + 9 \cdot 9 + 2 \cdot 2 \cdot (-3) \cdot 2 = 16 + 81 - 24 = \mathbf{73}\).
Cevap: \(E(X) = 0, E(XY) = E(X^3) = 0\) → Cov = 0 → ilişkisiz. Ama \(Y = X^2\) → tam bağımlı.
Cevap: \(a/|a| = \pm 1\). Mükemmel doğrusal.
Cevap: \(\sigma^2/n + (n-1)\rho\sigma^2/n \to \rho\sigma^2\). \(\rho = 0\) → \(\sigma^2/n \to 0\). Ama \(\rho > 0\) → taban \(\rho\sigma^2\)! Random forest ağaçlarını “decorrelate” etmenin nedeni.
22.10 Egzersizler
Egzersiz 1. \(\text{Var}(X) = 1, \text{Var}(Y) = 4, \text{Corr} = 0{,}5\). (a) Cov? (b) \(\text{Var}(X \pm Y)\)? (c) \(\text{Cov}(X, 2X + Y)\)?
Egzersiz 2. Mult: \(\text{Corr}(X_i, X_j)\). \(k = 2\) (binom): \(\text{Corr} = -1\) neden?
Egzersiz 3. \(U \sim\) Unif\((0, 2\pi)\), \(X = \cos U, Y = \sin U\). (a) Cov = 0. (b) \(X^2 + Y^2 = 1\) → bağımlı.
Egzersiz 4. (Python — Cov + İlişkisiz/Bağımlı)
Egzersiz 5. (Sonraki ders) Bağımsız \(X+Y\) PDF’i = konvolüsyon: \(f_{X+Y}(t) = \int f_X(x) f_Y(t-x) dx\).
22.11 Sonraki Ders İçin Hazırlık
Ders 22: Dönüşümler ve Konvolüsyonlar — change of variables, Jacobian.
- Egzersiz 5 (konvolüsyon sezgisi) çöz.
- “Bağımsız toplam MGF = \(M_X \cdot M_Y\)” hatırla.
22.12 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Blitzstein’de |
|---|---|---|
| Cov | \(E(XY) - E(X)E(Y)\) | 0m59 |
| Bilineerlik | \(\sum\sum a_i b_j\) Cov | 10m20 |
| Toplamın Var | \(\sum\) Var + \(2\sum\) Cov | 16m51 |
| Bağımsız ⇒ ilişkisiz | Tersi yanlış (Z, Z²) | 18m24 |
| Corr | Cov/\((\sigma_X \sigma_Y)\), birimsiz | 24m28 |
| Sınır | \(-1 \le \text{Corr} \le 1\) (Cauchy-Schwarz) | 28m31 |
| Mult Cov | \(-n p_i p_j\) (negatif) | 39m36 |
| Gösterge | \(I_A^2 = I_A\), \(I_A I_B = I_{A\cap B}\) | 42m38 |
| HGeom Var | Sonlu-popülasyon düzeltmesi | 44m36 |
22.13 ML Bağlantıları Özeti
- Σ matrisi → PCA, Mahalanobis, whitening.
- Bilineerlik → \(A\Sigma A^T\), portföy.
- Toplam Var → ensemble; korelasyon = varyans tabanı.
- İlişkisiz ≠ bağımsız → PCA vs ICA.
- Corr = kosinüs benzerliği → embedding, öneri.
- Mult yarışması → softmax bağı.
- HGeom düzeltme → yerine koymadan örnekleme (anket).
Cov bilineer; toplamın varyansı = \(\sum\)Var + 2\(\sum\)Cov; Corr = standartlaştırılmış = kosinüs benzerliği. “Korelasyon yok” \(\ne\) bağımsız — yalnız doğrusal yakalar.