22  Kovaryans ve Korelasyon

Toplamın varyansı, [-1,1] = Cauchy-Schwarz = kosinüs benzerliği

NotBölüm bilgisi

22.1 Bu Derste Ne Var?

  1. Kovaryans: \(\text{Cov}(X,Y) = E(XY) - E(X)E(Y)\); bilineer.
  2. Toplamın varyansı: \(\text{Var}(\sum X_i) = \sum \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j)\).
  3. Bağımsız ⇒ ilişkisiz (Cov = 0); TERSİ YANLIŞ\(Z, Z^2\) ilişkisiz ama tam bağımlı.
  4. Korelasyon: \(\text{Cov}/(\sigma_X \sigma_Y) \in [-1, 1]\) (Cauchy-Schwarz) = kosinüs benzerliği.
İpucuBuilder Notu — ML Köprüleri
  • Kovaryans matrisi \(\Sigma\) → PCA özvektörleri, Mahalanobis, whitening.
  • Bilineerlik\(\text{Cov}(AX) = A\Sigma A^T\); portföy varyansı \(w^T \Sigma w\).
  • Toplamın varyansıensemble / bagging variance reduction; korelasyon bir taban koyar.
  • İlişkisiz ≠ bağımsızPCA vs ICA; korelasyon yalnız doğrusal.
  • Korelasyon \([-1,1]\) = Cauchy-Schwarz = kosinüs benzerliği (cosine similarity).

22.2 Kovaryans: Tanım ve Bilineerlik

\[ \text{Cov}(X, Y) = E[(X - EX)(Y - EY)] = E(XY) - E(X)E(Y) \]

Özellikler:

\[ \text{Cov}(X, X) = \text{Var}(X), \quad \text{Cov}(X, c) = 0, \quad \text{Cov}(cX, Y) = c\,\text{Cov}(X, Y) \]

Bilineerlik:

\[ \text{Cov}\!\left(\sum_i a_i X_i, \sum_j b_j Y_j\right) = \sum_i \sum_j a_i b_j\, \text{Cov}(X_i, Y_j) \]

İpucuBuilder Notu — Σ Matrisi

Bilineerlik = kovaryans matrisi cebrinin temeli. Doğrusal \(Y = AX\) altında \(\text{Cov}(Y) = A\,\text{Cov}(X)\,A^T\). Portföy varyansı, doğrusal model belirsizliği, whitening.

22.3 Toplamın Varyansı

\[ \text{Var}\!\left(\sum_{i=1}^n X_i\right) = \sum_i \text{Var}(X_i) + 2\sum_{i<j} \text{Cov}(X_i, X_j) \]

Kovaryanslar 0 → varyanslar toplanır. Ensemble/bagging’in kalbi.

22.4 Bağımsız ⇒ İlişkisiz (Tersi YANLIŞ)

Karşı-örnek: \(Z \sim N(0,1)\), \(X = Z\), \(Y = Z^2\).

\[ \text{Cov}(X, Y) = E(Z^3) - 0 \cdot 1 = 0 \quad \text{(ilişkisiz)} \]

Ama \(Y = X^2\) → tam bağımlı! Korelasyon yalnızca doğrusal ilişkiyi ölçer.

“a common mistake is to show the covariance is 0, and then just leap to the conclusion that they’re independent.” — Blitzstein, 19:23

import numpy as np
import matplotlib.pyplot as plt

rng = np.random.default_rng(0)
N = 1000
X = rng.standard_normal(N)
Y = X**2
corr = np.corrcoef(X, Y)[0, 1]

fig, ax = plt.subplots(figsize=(10, 4.5))
ax.scatter(X, Y, s=10, alpha=0.5, color='#A51C30')
xs = np.linspace(-3, 3, 100)
ax.plot(xs, xs**2, color='#1f2937', linewidth=2.5, label='Y = X² (tam bağımlı)')
ax.set_xlabel('X', fontsize=12)
ax.set_ylabel('Y = X²', fontsize=12)
ax.set_title(f'İlişkisiz ama bağımlı! corr(X, Y) ≈ {corr:.3f} ≈ 0',
             fontsize=12)
ax.legend(fontsize=12)
ax.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
Şekil 22.1
ÖnemliBuilder Notu — PCA vs ICA

PCA / whitening bileşenleri ilişkisiz yapar ama bağımsız yapmaz. ICA gerçek bağımsızlığı hedefler. Doğrusal-olmayan bağ için mutual information, HSIC, distance correlation gerekir.

22.5 Korelasyon: \([-1, 1]\) ve Cauchy-Schwarz

\[ \text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X\, \sigma_Y} \]

Birimsiz. \([-1, 1]\) sınırı = Cauchy-Schwarz:

\[ \text{Var}(X \pm Y) = 2 \pm 2\rho \ge 0 \;\Rightarrow\; -1 \le \rho \le 1 \]

ÖnemliBuilder Notu — Kosinüs Benzerliği

Korelasyon birimsiz + \([-1, 1]\) = kosinüs benzerliği: merkezlenmiş vektörlerin normalize iç çarpımı. Cauchy-Schwarz ile aynı. Embedding benzerliği, öneri sistemleri, feature selection.

22.6 Multinomial Kovaryansı

\(X \sim\) Mult(\(n, \vec{p}\)). Toplam \(n\) sabit → kategoriler yarışır → negatif:

\[ \text{Cov}(X_i, X_j) = -n p_i p_j \quad (i \ne j) \]

İspat (lumping): \(X_1 + X_2 \sim\) Bin(\(n, p_1+p_2\)). Var’lar eşitle, çöz.

İpucuBuilder Notu — Softmax Yarışması

Multinomial negatif kovaryansı softmax çıktılarının doğası: olasılıklar 1’e toplandığından sınıflar yarışır. Çok-sınıflı modellerin gradyanlarında ve kalibrasyonunda görülür.

22.7 Binom + Hipergeometrik Varyansı (Göstergelerle)

Gösterge kimlikleri: \(I_A^2 = I_A\), \(I_A I_B = I_{A \cap B}\).

Binom: \(X = \sum I_j\) bağımsız → \(\text{Var}(X) = \sum \text{Var}(I_j) = npq\).

Hipergeometrik (yerine koymadan): Göstergeler bağımlı → negatif Cov + sonlu-popülasyon düzeltmesi.

\[ \text{Cov}(I_1, I_2) = \frac{w(w-1)}{(w+b)(w+b-1)} - \left(\frac{w}{w+b}\right)^2 < 0 \]

22.8 Bu Dersin Özeti

  1. Cov: \(E(XY) - E(X)E(Y)\); bilineer.
  2. Toplamın varyansı: \(\sum \text{Var} + 2 \sum \text{Cov}\).
  3. Bağımsız ⇒ ilişkisiz, tersi yanlış.
  4. Corr \(\in [-1, 1]\) (Cauchy-Schwarz).
  5. Mult Cov: \(-n p_i p_j\) (negatif).
  6. Binom Var: \(npq\). Hipergeometrik: bağımlı göstergeler.
ÖnemliTek bir cümle

Kovaryans birlikte değişimi ölçer, toplamın varyansına izin verir; korelasyon birimsiz \([-1, 1]\) = Cauchy-Schwarz = kosinüs benzerliği. Korelasyon yalnız doğrusal — ilişkisiz \(\ne\) bağımsız; gerçek bağımsızlık (ICA, MI) daha güçlüdür.

22.9 Kontrol Soruları

Cevap: \(4 \cdot 4 + 9 \cdot 9 + 2 \cdot 2 \cdot (-3) \cdot 2 = 16 + 81 - 24 = \mathbf{73}\).

Cevap: \(E(X) = 0, E(XY) = E(X^3) = 0\) → Cov = 0 → ilişkisiz. Ama \(Y = X^2\) → tam bağımlı.

Cevap: \(a/|a| = \pm 1\). Mükemmel doğrusal.

Cevap: \(\sigma^2/n + (n-1)\rho\sigma^2/n \to \rho\sigma^2\). \(\rho = 0\)\(\sigma^2/n \to 0\). Ama \(\rho > 0\)taban \(\rho\sigma^2\)! Random forest ağaçlarını “decorrelate” etmenin nedeni.

22.10 Egzersizler

Egzersiz 1. \(\text{Var}(X) = 1, \text{Var}(Y) = 4, \text{Corr} = 0{,}5\). (a) Cov? (b) \(\text{Var}(X \pm Y)\)? (c) \(\text{Cov}(X, 2X + Y)\)?

Egzersiz 2. Mult: \(\text{Corr}(X_i, X_j)\). \(k = 2\) (binom): \(\text{Corr} = -1\) neden?

Egzersiz 3. \(U \sim\) Unif\((0, 2\pi)\), \(X = \cos U, Y = \sin U\). (a) Cov = 0. (b) \(X^2 + Y^2 = 1\) → bağımlı.

Egzersiz 4. (Python — Cov + İlişkisiz/Bağımlı)

import numpy as np
rng = np.random.default_rng(0)

# Multinomial Cov(X_1, X_2) = -n p_1 p_2
n = 50; p = [0.5, 0.3, 0.2]
D = rng.multinomial(n, p, size=200_000)
cov = np.cov(D[:, 0], D[:, 1])[0, 1]
print(f"Mult Cov(X_1, X_2) ≈ {cov:.3f}  teorik {-n*p[0]*p[1]}")

# İlişkisiz ama bağımlı: X=cos U, Y=sin U
U = rng.uniform(0, 2*np.pi, 500_000)
X, Y = np.cos(U), np.sin(U)
print(f"corr(X, Y) ≈ {np.corrcoef(X, Y)[0,1]:.4f} (≈ 0, ilişkisiz)")
print(f"X² + Y² = {np.mean(X**2 + Y**2):.4f} (= 1, tam bağımlı!)")

Egzersiz 5. (Sonraki ders) Bağımsız \(X+Y\) PDF’i = konvolüsyon: \(f_{X+Y}(t) = \int f_X(x) f_Y(t-x) dx\).

22.11 Sonraki Ders İçin Hazırlık

Ders 22: Dönüşümler ve Konvolüsyonlar — change of variables, Jacobian.

UyarıDers 22 öncesi yapılacak
  • Egzersiz 5 (konvolüsyon sezgisi) çöz.
  • “Bağımsız toplam MGF = \(M_X \cdot M_Y\)” hatırla.

22.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Blitzstein’de
Cov \(E(XY) - E(X)E(Y)\) 0m59
Bilineerlik \(\sum\sum a_i b_j\) Cov 10m20
Toplamın Var \(\sum\) Var + \(2\sum\) Cov 16m51
Bağımsız ⇒ ilişkisiz Tersi yanlış (Z, Z²) 18m24
Corr Cov/\((\sigma_X \sigma_Y)\), birimsiz 24m28
Sınır \(-1 \le \text{Corr} \le 1\) (Cauchy-Schwarz) 28m31
Mult Cov \(-n p_i p_j\) (negatif) 39m36
Gösterge \(I_A^2 = I_A\), \(I_A I_B = I_{A\cap B}\) 42m38
HGeom Var Sonlu-popülasyon düzeltmesi 44m36

22.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. Σ matrisi → PCA, Mahalanobis, whitening.
  2. Bilineerlik\(A\Sigma A^T\), portföy.
  3. Toplam Varensemble; korelasyon = varyans tabanı.
  4. İlişkisiz ≠ bağımsızPCA vs ICA.
  5. Corr = kosinüs benzerliği → embedding, öneri.
  6. Mult yarışması → softmax bağı.
  7. HGeom düzeltme → yerine koymadan örnekleme (anket).
ÖnemliTek bir şey alıp gideceksen

Cov bilineer; toplamın varyansı = \(\sum\)Var + 2\(\sum\)Cov; Corr = standartlaştırılmış = kosinüs benzerliği. “Korelasyon yok” \(\ne\) bağımsız — yalnız doğrusal yakalar.