21 Tanımlar ve Eşitsizlikler — Mean, Variance, Covariance

İstatistik bloğu açılışı: Markov, Chebyshev ve covariance matrisi

Bölüm bilgisi

Bu ders lineer cebir bloğunu kapatıp istatistik bloğunu açar: Strang’in Ders 20 videosu (≈55 dk) ve OCW Lecture 20 temel alınmıştır. Okuma süresi ≈34 dk; önkoşul Ders 19 (covariance önizlemesi).

21.1 Bu Derste Ne Var?

Lineer cebir bloğu kapandı; istatistik başlıyor. Bu ders olasılığın temel tanımlarını (beklenen değer, varyans) ve iki büyük eşitsizliği (Markov, Chebyshev) tazeler, sonra covariance matrisine ulaşır — derin öğrenmenin istatistiksel temeli.

Beş sonuç:

Beklenen değer: $E[x] = \sum_{i} P_{i}x_{i} = m$; varyans $\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$.
Markov eşitsizliği ($x \geq 0$): $P(x \geq a) \leq \frac{m}{a}$.
Chebyshev eşitsizliği: $P(|x-m| \geq a) \leq \frac{\sigma^{2}}{a^{2}}$ — Markov’dan $y = (x-m)^{2}$ ile kanıtlanır.
Ortak olasılık: bağımsız (yapışmamış) vs bağımlı (yapışık) paralar; 3 deney → tensör (3-yollu dizi).
Covariance matrisi: $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; köşegen = varyanslar, köşegen-dışı = $\sigma_{xy}$; bağımsız → köşegen; simetrik pozitif yarı-tanımlı.

“…part of deep learning as we get there.” — Strang, 0:28

flowchart TB
    M["Istatistik basliyor:<br/>tanimlar + esitsizlikler"]

    M --> E["beklenen deger:<br/>E[x] = toplam P_i x_i = m"]
    M --> VAR["varyans:<br/>sigma^2 = E[(x-m)^2] = E[x^2] - m^2"]
    M --> MK["Markov (x >= 0):<br/>P(x >= a) <= m/a"]
    M --> CH["Chebyshev:<br/>P(|x-m| >= a) <= sigma^2/a^2<br/>(Markov dan kanit)"]
    M --> OO["ortak olasilik:<br/>yapismamis vs yapisik paralar"]
    MK --> CH

    T["3 deney -> TENSOR (2x2x2)"]
    V["covariance V = agirlikli<br/>dis-carpim toplami: simetrik PSD"]
    D["bagimsiz -> kosegen V"]
    OO --> T
    OO --> V
    V --> D

    classDef center fill:#1f4e79,stroke:#163a5c,color:#ffffff,stroke-width:2px;
    classDef branch fill:#2e75b6,stroke:#1f4e79,color:#ffffff,stroke-width:1px;
    classDef side fill:#9dc3e6,stroke:#2e75b6,color:#11151c,stroke-width:1px;

    class M center;
    class E,VAR,MK,CH,OO branch;
    class T,V,D side;

Şekil 21.1: Ders 20 kavram haritasi: “Istatistik basliyor: tanimlar + esitsizlikler” merkezde; beklenen deger E[x], varyans sigma^2, Markov esitsizligi, Chebyshev (Markov dan kanit) ve ortak olasilik (yapismamis vs yapisik paralar) dallarda; uc deneyin tensore tasmasi, covariance V nin agirlikli dis-carpim toplami olarak simetrik PSD olusu ve bagimsizligin kosegen V vermesi ayri dugumlerde.

Kavram haritası (Şekil 21.1) dersin akışını gösterir: merkezdeki “istatistik başlıyor” düğümünden beş dal (beklenen değer, varyans, Markov, Chebyshev, ortak olasılık) çıkar; Markov, Chebyshev’i besler (kanıt oku), ortak olasılık ise hem tensöre hem covariance matrisine açılır.

Builder Notu — İstatistik Bloğunun Kapısı

Burası kitabın ikinci yarısının başlangıcı: 19 dersin lineer cebiri artık olasılığa hizmet ediyor. Covariance matrisi = veri yapısı — PCA (Ders 7), Mahalanobis mesafesi, Gauss dağılımı, Kalman filtresi (Ders 14) hep bu simetrik pozitif yarı-tanımlı matrise dayanır. Markov/Chebyshev = konsantrasyon eşitsizlikleri — ML genelleme sınırlarının (generalization bounds) ataları; “örneklem ortalaması gerçek ortalamaya ne kadar yakın?” sorusunu yanıtlar. Tensör — derin öğrenmenin temel veri yapısı (PyTorch/NumPy ndarray); 3+ yollu dizi ilk kez burada çıkıyor. Geriye köprü: Stat 110 (mean/variance/Markov/Chebyshev — §4.B), Ders 5 (pozitif tanımlı), Ders 19 (covariance önizleme).

21.2 1. Beklenen Değer (Mean)

İstatistik bloğu başlıyor — derin öğrenmenin de bir parçası.

“…part of deep learning as we get there.” — Strang, 0:28

Örneklem ortalaması (sample mean) veriden hesaplanır; beklenen değer ise olasılıklarla ağırlıklı ortalamadır. x değeri $P_{1}$ olasılıkla $x_{1}$, …, $P_{n}$ olasılıkla $x_{n}$ alıyorsa:

\[E[x] = P_{1}x_{1} + P_{2}x_{2} + \cdots + P_{n}x_{n} = m\]

E sembolü her yerde kullanılır — pratik bir kısaltma. Genel olarak herhangi bir $f(x)$ fonksiyonunun beklenen değeri de olasılıklarla ağırlıklıdır:

\[E[f(x)] = \sum_{i} P_{i}\,f(x_{i})\]

Builder Notu — Riskin Dili E Sembolü

Beklenen değer = olasılık-ağırlıklı ortalama; örneklem ortalaması bunun veriden tahminidir. ML köprüsü: bir kayıp fonksiyonunun beklenen değerini (risk) minimize etmek istatistiksel öğrenmenin tanımıdır; SGD (Ders 25) bu beklenen değeri mini-batch örneklem ortalamasıyla tahmin eder. $E[\cdot]$ gösterimi tüm makine öğrenmesi teorisinin dili.

21.3 2. Varyans

Varyans, beklenen değerin özel bir hâli: ortalamadan uzaklığın karesinin beklenen değeri:

\[\sigma^{2} = E[(x - m)^{2}] = \sum_{i} P_{i}(x_{i} - m)^{2}\]

Kare şart — işaretten bağımsız bir yayılım ölçüsü verir. m = ortalama (mean). Varyans, dağılımın ortalama etrafında ne kadar saçıldığını ölçer.

Kod

v1, v2, m = variance_two_ways(DIE_XS, DIE_PS)
sigma = np.sqrt(v1)

fig, ax = plt.subplots(figsize=(7.5, 4))
ax.bar(DIE_XS, DIE_PS, color=COL_PRIMARY, width=0.6)
ax.axvline(m, color=COL_VEC3, linewidth=3, label="m = 3.5")
ax.text(m + 0.08, 0.235, "m = 3.5", color=COL_VEC3, fontsize=11, fontweight="bold", va="top")
ax.axvspan(m - sigma, m + sigma, color=COL_TEAL, alpha=0.12)
ax.text(m + sigma + 0.05, 0.05, "m +- sigma (sigma = 1.708)", color=COL_TEAL, fontsize=9.5, fontweight="bold", rotation=90, va="bottom")
ax.text(0.55, 0.215, "iki formul birebir:\nE[(x-m)^2] = E[x^2] - m^2 = 35/12 = 2.917",
        color=COL_TEXT, fontsize=9.5,
        bbox=dict(boxstyle="round,pad=0.4", facecolor=COL_BG, edgecolor=COL_STEEL_300))
apply_style(ax)
ax.set_xlabel("zar degeri"); ax.set_ylabel("olasilik")
ax.set_ylim(0, 0.25)
ax.set_title("Zar: beklenen deger m = 3.5, varyans iki formulle ayni (35/12 = 2.917, fark ~ 4e-16)",
             color=COL_TEXT, fontsize=11, fontweight="bold")
plt.show()

Şekil 21.2: Zar dağılımı: beklenen değer m = 3.5 ve varyansın iki formülle birebir aynı çıkışı (35/12 ≈ 2.917).

Builder Notu — Saçılımın Karesi

Varyans = ortalamadan kare-uzaklığın ortalaması. ML köprüsü: bias-variance ayrışımı (model hatasının iki kaynağı), gradyan gürültüsünün varyansı (SGD yakınsama hızını belirler), ve PCA’da varyans-maksimizasyonu — hepsi bu tek tanıma dayanır. Yüksek varyans = aşırı-öğrenme sinyali.

21.4 3. Varyans için İkinci Formül

Kareyi açıp yeniden düzenleyerek varyansın çok kullanışlı (ve hesaplaması hızlı) ikinci biçimi çıkar:

\[\sigma^{2} = E[x^{2}] - m^{2}\]

“…the expected value of x squared minus m squared. It’s just algebra.” — Strang, 7:56

İspat lise cebiri: $\sum P_{i}(x_{i}-m)^{2}$ açılınca $\sum P_{i}x_{i}^{2} - 2m \sum P_{i}x_{i} + m^{2} \sum P_{i}$. Son terimde $\sum P_{i} = 1$, orta terimde $\sum P_{i}x_{i} = m$, yani $-2m \cdot m + m^{2} = -m^{2}$. Geriye $E[x^{2}] - m^{2}$ kalır.

Zar örneği (Şekil 21.2), bu iki formülün birebir aynı sonucu verdiğini sayısal olarak doğrular: $m = 3.5$, her iki yoldan $\sigma^{2} = 35/12 \approx 2.917$, aradaki fark yalnızca yuvarlama düzeyinde ($\sim 4 \times 10^{-16}$). $m \pm \sigma$ bandı ($\sigma \approx 1.708$) dağılımın çoğunu kapsar.

Builder Notu — Tek Geçişte Varyans

“Karelerin ortalaması eksi ortalamanın karesi” formülü tek geçişte (online) varyans hesaplamayı sağlar — $\sum x^{2}$ ve $\sum x$ biriktirip sonda birleştir. ML köprüsü: batch normalization ve running statistics (çalışan istatistikler) tam bu formülü kullanır; veri akışında ortalama ve varyansı tek geçişte günceller.

21.5 4. Markov Eşitsizliği

İstatistiğin iki büyük eşitsizliğinden ilki Markov’dan (1900’lerin büyük Rus olasılıkçısı):

“And the first one is due to Markov.” — Strang, 8:46

Negatif olmayan çıktılar için (tüm $x_{i} \geq 0$), x’in a’dan büyük olma olasılığını ortalama ile sınırlar:

\[P(x \geq a) \leq \frac{m}{a} \qquad (x \geq 0)\]

a büyüdükçe olasılık düşer (daha fazlasını istiyoruz). Örnek: m = 1, a = 3 → $P(x \geq 3) \leq 1/3$. İspat sezgisi: $x_{3}P_{3} + x_{4}P_{4} + \cdots \leq \sum x_{i}P_{i} = m$; tüm terimler negatif olmadığından ve toplam m olduğundan, “a’yı aşan” kısım m/a’yı geçemez.

Kod

fig, axs = plt.subplots(1, 2, figsize=(10, 4))

# Sol: a taramasi — gercek P(x >= a) vs Markov siniri m/a
xs1 = np.array([0., 1., 2., 3.])
ps1 = np.array([0.4, 0.35, 0.15, 0.1])
m1 = expectation(xs1, ps1)  # = 0.95
a_scan = np.linspace(0.5, 3.5, 200)
gercek = [prob_tail(xs1, ps1, a) for a in a_scan]
sinir = [m1 / a for a in a_scan]
axs[0].step(a_scan, gercek, where="post", color=COL_PRIMARY, lw=2, label="gercek P(x >= a)")
axs[0].plot(a_scan, sinir, color=COL_VEC3, lw=2, label="Markov siniri m/a")
axs[0].fill_between(a_scan, gercek, sinir, color=COL_STEEL_300, alpha=0.25)
axs[0].set_xlabel("a"); axs[0].set_ylabel("olasilik")
axs[0].set_title("a taramasi: sinir HEP gercek olasiligin ustunde", fontsize=11)
axs[0].legend()
apply_style(axs[0])

# Sag: esitlik durumu — iki-noktali {0, 5} dagilim, a = 5
xs_eq = np.array([0., 5.])
ps_eq = np.array([0.6, 0.4])
a_eq = 5.0
gercek_eq, sinir_eq = markov_bound(xs_eq, ps_eq, a_eq)  # 0.4 ve 0.4 AYNI
bars = axs[1].bar([0, 1], [gercek_eq, sinir_eq], width=0.5,
                  color=[COL_PRIMARY, COL_VEC3])
axs[1].set_xticks([0, 1]); axs[1].set_xticklabels(["gercek P(x >= 5)", "Markov siniri m/5"])
axs[1].set_ylabel("olasilik"); axs[1].set_ylim(0, 0.55)
axs[1].set_title("esitlik durumu: gercek = sinir = 0.4", fontsize=11)
for b, v in zip(bars, [gercek_eq, sinir_eq]):
    axs[1].text(b.get_x() + b.get_width() / 2, v + 0.012, "%.2f" % v,
                ha="center", va="bottom", color=COL_TEXT, fontweight="bold")
axs[1].annotate("esitlik: kutle yalniz {0, a} da", xy=(0.5, 0.4), xytext=(0.5, 0.5),
                ha="center", color=COL_TEXT, fontsize=10,
                arrowprops=dict(arrowstyle="->", color=COL_TEXT))
apply_style(axs[1])

fig.suptitle("Markov (x >= 0): P(x >= a) <= m/a — sabit dagilimda 200 esik (a) degerinde ihlal 0; esitlik yalniz iki-noktali {0, a} dagiliminda",
             fontsize=11, color=COL_TEXT)
fig.tight_layout(rect=[0, 0, 1, 0.95])
plt.show()

Şekil 21.3: Markov eşitsizliği iki yüzü. Sol: dört-noktalı dağılımda ($m = 0.95$) gerçek $P(x \geq a)$ basamak eğrisi (navy) ile Markov sınırı $m/a$ (turuncu) — sınır eşiğin her değerinde gerçek olasılığın üstünde, aradaki gri bölge sınırın gevşekliği. Sağ: eşitliğin sağlandığı tek aile — kütle yalnız $\{0, a\}$’da yoğunlaşırsa ($a = 5$, $P = [0.6, 0.4]$) gerçek olasılık ile sınır birebir çakışır (her ikisi de 0.40).

Markov’un iki yüzü (Şekil 21.3): solda sabit bir dört-noktalı dağılımda eşik a, $0.5 \to 3.5$ boyunca (200 nokta) tarandıkça gerçek $P(x \geq a)$ basamak eğrisi sınır $m/a$ eğrisinin daima altında kalır — taranan 200 eşik değerinin hiçbirinde ihlal yok (ihlal sayısı 0). Sağda eşitliğin sağlandığı tek aile gösterilir: kütle yalnız $\{0, a\}$ iki noktasına toplanırsa gerçek olasılık sınıra dokunur ($a = 5$ için her ikisi de 0.40).

Builder Notu — Az Varsayım Zayıf Sınır

Markov, en az varsayımla (sadece $x \geq 0$) en zayıf ama en genel sınırı verir. ML köprüsü: konsantrasyon eşitsizliklerinin (concentration inequalities) atası; genelleme sınırları, PAC öğrenme ve “kötü olay” olasılıklarını sınırlamak hep Markov-tipi argümanla başlar. Gauss gibi negatif değer alan dağılımlara uygulanamaz — sınırı orada Chebyshev devralır.

21.6 5. Chebyshev Eşitsizliği

İkinci büyük eşitsizlik Chebyshev’den (dönemin diğer büyük Rus olasılıkçısı). Markov’un $x \geq 0$ varsayımını yapmaz:

“Chebyshev is the other great Russian probabilist of the time.” — Strang, 21:37

Ortalamadan uzaklığı (her iki yöne) sınırlar — varyans devreye girer:

\[P(|x - m| \geq a) \leq \frac{\sigma^{2}}{a^{2}}\]

Zekice olan: ispat doğrudan Markov’dan gelir.

“…the proof of Chebyshev comes directly from Markov.” — Strang, 25:05

Yeni bir çıktı tanımla: $y = (x - m)^{2}$ (negatif olmayan! aynı olasılıklarla). Markov’u y’ye uygula: $P(y \geq a^{2}) \leq E[y]/a^{2} = \sigma^{2}/a^{2}$. Ama $y \geq a^{2}$ demek $|x - m| \geq a$ demektir. Sonuç Chebyshev.

Kod

fig, axs = plt.subplots(1, 2, figsize=(10, 4))

# --- Sol: kanit gorseli (Chebyshev = Markov uygulandi) ---
xs_c = np.array([-2., 0., 1., 4.])
ps_c = np.array([0.2, 0.3, 0.3, 0.2])
a_scan = np.linspace(0.5, 4, 200)
gercek = [chebyshev_bound(xs_c, ps_c, a)[0] for a in a_scan]
cheb = [chebyshev_bound(xs_c, ps_c, a)[1] for a in a_scan]
mkv = [chebyshev_via_markov(xs_c, ps_c, a) for a in a_scan]

axs[0].step(a_scan, gercek, where="mid", color=COL_PRIMARY, lw=1.8, label="gercek P(|x-m| >= a)")
axs[0].plot(a_scan, cheb, color=COL_VEC3, lw=2.5, label="Chebyshev sigma^2/a^2")
axs[0].plot(a_scan, mkv, color=COL_TEAL, lw=2, linestyle="--", label="Markov(y=(x-m)^2) — AYNI egri (kanit)")
axs[0].set_xlabel("esik a"); axs[0].set_ylabel("olasilik / sinir")
axs[0].set_ylim(0, 2.2); axs[0].legend(fontsize=8.5, loc="upper right")
axs[0].set_title("Sol: iki sinir egrisi cakisir (kanit)", color=COL_TEXT, fontsize=11, fontweight="bold")
apply_style(axs[0])

# --- Sag: Gauss histogrami, |x|>=2 vurgu ---
rngg = np.random.default_rng(5)
g = rngg.standard_normal(200000)
axs[1].hist(g, bins=80, color=COL_STEEL_300, density=True, label="standart normal")
mask = np.abs(g) >= 2
axs[1].hist(g[mask], bins=80, color=COL_VEC3, density=False, weights=np.full(mask.sum(), 1.0 / (g.size * (g.max() - g.min()) / 80)), alpha=0.9, label="|x| >= 2 (kuyruk)")
axs[1].set_xlabel("x"); axs[1].set_ylabel("yogunluk")
axs[1].text(0.02, 0.97, "gercek P(|x|>=2) = 0.045\nvs Chebyshev 0.25\n(5.5 kat gevsek ama\nDAGILIM-BAGIMSIZ)",
            transform=axs[1].transAxes, va="top", ha="left", fontsize=8.5,
            bbox=dict(boxstyle="round", fc=COL_BG, ec=COL_ACCENT, alpha=0.95))
axs[1].set_title("Sag: Gauss ta sinir gevsek ama evrensel", color=COL_TEXT, fontsize=11, fontweight="bold")
apply_style(axs[1])

fig.suptitle("Chebyshev = Markov un (x-m)^2 ye uygulanmasi: iki sinir egrisi BIREBIR cakisir (1.6933 = 1.6933)",
             color=COL_TEXT, fontsize=11.5, fontweight="bold")
fig.tight_layout(rect=[0, 0, 1, 0.95])
plt.show()

Şekil 21.4: Chebyshev = Markov’un $(x-m)^2$’ye uygulanması: gerçek kuyruk (navy basamak) iki sınırın altında kalır; Chebyshev $\sigma^2/a^2$ (turuncu) ile Markov($y=(x-m)^2$) eğrisi (teal kesik) BİREBİR çakışır — kanıtın kendisi. Sağda standart normalde gerçek $P(|x|\geq 2)=0{,}045$, Chebyshev sınırı $0{,}25$ (5,5 kat gevşek ama dağılım-bağımsız).

Kanıt görseli (Şekil 21.4) tam da bu hamleyi gösterir: solda Chebyshev sınırı $\sigma^{2}/a^{2}$ (turuncu) ile “Markov’u $y=(x-m)^{2}$’ye uygula” eğrisi (teal kesik) birebir çakışır — sayısal tanık $1.6933 = 1.6933$. Sağda standart normal için Chebyshev sınırı işler: gerçek $P(|x| \geq 2) \approx 0.045$, sınır 0.25 (yaklaşık 5,5 kat gevşek). Bu gevşeklik bedel: Markov negatif değerli Gauss’a uygulanamaz, ama Chebyshev her dağılıma uygulanır.

Builder Notu — Markov’u Kareye Uygula

Chebyshev mutlak değer/uzaklık ile çalışır, yani işaretsiz — varyans temelli. “Markov’u $(x-m)^{2}$’ye uygula” hamlesi, negatif-olmayan bir dönüşüm bulup genel bir eşitsizliği özelden türetmenin klasik örneği. ML köprüsü: büyük sayılar yasasının (LLN) niceliksel hâli; örneklem ortalamasının gerçek ortalamaya yakınsama hızını (1/n) Chebyshev verir — SGD’nin neden işe yaradığının temeli.

21.7 6. Ortak Olasılık: Yapışmamış ve Yapışık Paralar

Covariance’a geçmeden önce ortak olasılık (joint probability). İki para at; sonuçları bir 2×2 matriste topla. Yapışmamış (bağımsız) paralar: her kombinasyon eşit olasılıklı:

\[P_{\text{unglued}} = \begin{bmatrix} 1/4 & 1/4 \\ 1/4 & 1/4 \end{bmatrix}\]

Yapışık (tam bağımlı) paralar: biri yazı gelirse diğeri de yazı; sadece YY veya TT mümkün:

\[P_{\text{glued}} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix}\]

Bir paranın sonucunu bilmek diğeri hakkında: bağımsızda hiçbir şey, bağımlıda her şeyi söyler. Üç deney (üç para) yaparsan, ortak olasılıklar artık bir matrise sığmaz — üç indis gerekir:

“…we’re seeing for the first time a tensor.” — Strang, 37:56

Üç para → 2×2×2 bir tensör (8 girdi); bağımsızsa her biri 1/8. Tensör = çok-yollu matris (satır, sütun, katman).

Kod

fig, axs = plt.subplots(1, 3, figsize=(10, 3.4))
heatmap(axs[0], P_UNGLUED, "yapismamis (bagimsiz): hepsi 1/4", fmt="{:.2f}")
heatmap(axs[1], P_GLUED, "yapisik: yalniz YY ve TT", fmt="{:.2f}")
T = tensor_three_coins()
heatmap(axs[2], np.hstack([T[:, :, 0], T[:, :, 1]]), "3 para -> 2x2x2 tensor (iki katman; hepsi 1/8)", fmt="{:.3f}")
fig.suptitle("Ortak olasilik: bagimsizda bilgi yok, yapisikta tam bilgi; uc deney matrise sigmaz -> ILK TENSOR", fontsize=11, color=COL_TEXT)
fig.tight_layout()
plt.show()

Şekil 21.5: Ortak olasılık matrisleri ve ilk tensör: yapışmamış (bağımsız) paralarda dört hücre de 1/4, yapışık paralarda kütle yalnız YY ve TT köşegeninde (her biri 1/2), üç paranın deneyi ise artık matrise sığmaz ve 2×2×2 tensöre taşar (her hücre 1/8).

İki para matrisi ile ilk tensör (Şekil 21.5): solda yapışmamış paraların dört hücresi de 1/4, ortada yapışık paralarda kütle yalnız YY/TT köşegeninde (her biri 1/2), sağda üç para için 2×2×2 tensör iki katman olarak gösterilir (her hücre 1/8).

Builder Notu — Köşegen-Dışı Bağımlılık Kodlar

Ortak olasılık matrisinin köşegen-dışı yapısı bağımlılığı kodlar: bağımsız = köşegen-baskın değil, eşit dağılım; bağımlı = sıfırlar belirir. ML köprüsü: tensör derin öğrenmenin temel veri yapısıdır (PyTorch/NumPy ndarray) — bir görüntü batch’i 4-yollu tensördür (batch×kanal×yükseklik×genişlik). Strang’ın “ilk kez tensör görüyoruz” anı, lineer cebirden çok-boyutlu dizilere geçişin kapısı.

21.8 7. Covariance Matrisi

Günün varış noktası:

“…what is the covariance matrix?” — Strang, 42:37

İki deney aynı anda koşar (deney 1 → x, deney 2 → y). Tüm olası $(x_{i}, y_{j})$ çiftleri üzerinde, ortak olasılık $P_{ij}$ ile ağırlıklı, sapmaların dış-çarpımı (kolon × satır):

\[V = \sum_{i,j} P_{ij} \begin{bmatrix} x_{i} - m_{x} \\ y_{j} - m_{y} \end{bmatrix} \begin{bmatrix} x_{i} - m_{x} & y_{j} - m_{y} \end{bmatrix}\]

İki deney → 2×2 matris. (1,1) girdisi: $(x-m_{x})^{2}$ ağırlıklı toplam = x’in varyansı $\sigma_{x}^{2}$. (2,2): $\sigma_{y}^{2}$. Köşegen-dışı (1,2) = (2,1): kovaryans $\sigma_{xy}$ (simetrik):

\[V = \begin{bmatrix} \sigma_{x}^{2} & \sigma_{xy} \\ \sigma_{xy} & \sigma_{y}^{2} \end{bmatrix}\]

Köşegen = ayrı ayrı varyanslar, köşegen-dışı = değişkenler arası ilişki. Dış-çarpım yapısı (Ders 1) covariance’ı doğal olarak simetrik kılar.

Kod

fig, axs = plt.subplots(1, 3, figsize=(10.5, 3.4))

Vu, _, _ = covariance_from_joint(P_UNGLUED)
Vg, _, _ = covariance_from_joint(P_GLUED)
heatmap(axs[0], Vu, "bağımsız: V = diag(1/4, 1/4)", fmt="{:.2f}")
heatmap(axs[1], Vg, "yapışık: TEKİL (det = 0)", fmt="{:.2f}")

for t in range(20):
    P_r = random_joint(4, seed=t)
    V_r, _, _ = covariance_from_joint(P_r, np.arange(4.), np.array([0., 2., 3., 7.]))
    lams = np.linalg.eigvalsh(V_r)
    axs[2].scatter(lams[0], lams[1], color=COL_PRIMARY, s=45, zorder=3)
axs[2].scatter(0, 0.5, color=COL_VEC3, marker="*", s=140, zorder=4)
axs[2].annotate("tekil sınır (yapışık)", xy=(0, 0.5), xytext=(0.6, 0.9),
                color=COL_VEC3, fontsize=9,
                arrowprops=dict(arrowstyle="->", color=COL_VEC3))
axs[2].axvline(0, color=COL_STEEL_300, linestyle="--", linewidth=1.2, zorder=1)
axs[2].set_xlabel("lambda_min")
axs[2].set_ylabel("lambda_max")
apply_style(axs[2])

fig.suptitle("Covariance = olasılık-ağırlıklı dış-çarpım toplamı -> HER ZAMAN simetrik PSD; bağımsız köşegen, tam bağımlı tekil")
fig.tight_layout()
plt.show()

Şekil 21.6: Covariance = olasılık-ağırlıklı dış-çarpım toplamı: SOL bağımsız paralarda V = diag(1/4, 1/4) (köşegen, σ_xy = 0); ORTA yapışık paralarda V = [[1/4,1/4],[1/4,1/4]] tekil (det = 0, yarı-tanımlı); SAĞ 20 rastgele ortak dağılımın V özdeğer çifti hep λ_min > 0 bölgesinde (PSD), yapışık paranın noktası (0, 0.5) tam tekil sınırda. V her zaman simetrik ve PSD.

Covariance’ın yapısı (Şekil 21.6): solda bağımsız paralarda $V = \text{diag}(1/4, 1/4)$ (köşegen, $\sigma_{xy} = 0$), ortada yapışık paralarda $V$’nin tüm girdileri 1/4 olduğundan determinant sıfır — tekil/yarı-tanımlı. Sağda 20 rastgele ortak dağılımın özdeğer çiftleri $(\lambda_{\min}, \lambda_{\max})$ daima $\lambda_{\min} > 0$ bölgesinde (en küçüğü 0.92), yapışık paranın noktası (0, 0.5) tam tekil sınırda.

Builder Notu — Dış-Çarpımların Ağırlıklı Toplamı

Covariance matrisi = dış-çarpımların olasılık-ağırlıklı toplamı (Ders 1 $uv^{\top}$ deseni). Köşegen-dışı terimler değişkenlerin birlikte nasıl değiştiğini söyler. ML köprüsü: veri matrisi A için $(1/n)A^{\top}A$ merkezlenmiş covariance’tır; özvektörleri ana bileşenler (PCA, Ders 7), özdeğerleri varyans miktarları. Gauss dağılımı, Mahalanobis mesafesi ve LDA hep V’ye dayanır.

21.9 8. Pozitif Yarı-Tanımlı ve Bağımsızlık

Dış-çarpım toplamı olduğundan covariance matrisi her zaman simetrik pozitif yarı-tanımlıdır (Ders 5): her sapma-dış-çarpımı pozitif yarı-tanımlı, toplamları da öyle. Bağımsız (yapışmamış) deneylerde kovaryans sıfırdır:

“…in that case, those are 0.” — Strang, 52:10

\[\text{independent} \;\Rightarrow\; \sigma_{xy} = 0 \;\Rightarrow\; V = \begin{bmatrix} \sigma_{x}^{2} & 0 \\ 0 & \sigma_{y}^{2} \end{bmatrix}\]

Bağımsızlıkta V köşegen — sadece ayrı varyanslar. Tam bağımlılıkta (yapışık) V tekildir (pozitif yarı-tanımlı, det = 0). Ek not: ortak olasılıkları bir indis üzerinden toplamak ($\sum_{i} P_{ij} = P_{j}$) marjinal olasılıkları verir.

Builder Notu — Sıfır Özdeğer Tam Bağımlılık

“Bağımsız → köşegen covariance” ve “tam bağımlı → tekil (yarı-tanımlı)” ayrımı, covariance’ın özdeğerlerinin bağımlılık yapısını okuduğunu gösterir: sıfır özdeğer = mükemmel doğrusal bağımlılık. ML köprüsü: çoklu-doğrusallık (multicollinearity) tam budur — neredeyse-tekil covariance regresyonu kararsız kılar (Ders 10 kondisyon); PCA bu yönde varyansı sıfıra yakın bileşenleri atar.

21.10 Bu Dersin Özeti

Beklenen değer: $E[x] = \sum P_{i}x_{i} = m$; genel olarak $E[f(x)] = \sum P_{i}f(x_{i})$.
Varyans: $\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$ (ikinci formül tek geçişte hesaplanır).
Markov ($x \geq 0$): $P(x \geq a) \leq m/a$. En genel, en zayıf sınır.
Chebyshev: $P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$; Markov’u $y = (x-m)^{2}$’ye uygulayarak kanıtlanır.
Ortak olasılık: bağımsız (köşegen-dışı bilgi yok) vs bağımlı; 3 deney → tensör (2×2×2).
Covariance matrisi: $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; köşegen = varyanslar, köşegen-dışı = $\sigma_{xy}$; simetrik pozitif yarı-tanımlı.
Bağımsızlık → köşegen V ($\sigma_{xy} = 0$); tam bağımlılık → tekil V.

Tek Bir Cümle

Beklenen değer ve varyans olasılığın temel ölçüleridir; Markov ($P(x \geq a) \leq m/a$) ve Chebyshev ($P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$) sapmaları sınırlar; covariance matrisi ise değişkenler arası ilişkiyi simetrik pozitif yarı-tanımlı bir matris olarak kodlar (köşegen = varyans, köşegen-dışı = kovaryans).

21.11 Kontrol Soruları

Soru 1: Varyansın iki formülü nedir ve ikincisi neden hesaplama açısından kullanışlı?

$\sigma^{2} = E[(x-m)^{2}]$ (sapma-kare ortalaması) ve $\sigma^{2} = E[x^{2}] - m^{2}$ (karelerin ortalaması eksi ortalamanın karesi). İkincisi kullanışlı çünkü $\sum x^{2}$ ve $\sum x$’i tek veri geçişinde biriktirip sonda birleştirirsin — online/running varyans hesabı. İspatı lise cebiri: kareyi açıp $\sum P_{i} = 1$ ve $\sum P_{i}x_{i} = m$ kullan.

Soru 2: Markov ve Chebyshev eşitsizlikleri arasındaki fark nedir, ve Chebyshev nasıl kanıtlanır?

Markov yalnız $x \geq 0$ için geçerli: $P(x \geq a) \leq m/a$. Chebyshev bu varsayımı yapmaz; ortalamadan uzaklığı (her iki yön) sınırlar: $P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$. Chebyshev, Markov’u negatif-olmayan yeni değişken $y = (x-m)^{2}$’ye uygulayarak kanıtlanır: $P(y \geq a^{2}) \leq E[y]/a^{2} = \sigma^{2}/a^{2}$, ve $y \geq a^{2} \Leftrightarrow |x-m| \geq a$.

Soru 3: İki yazı-tura için yapışmamış (bağımsız) ve yapışık (bağımlı) ortak olasılık matrisleri nasıl farklıdır?

Yapışmamış: dört kombinasyon (YY, YT, TY, TT) eşit olasılıklı, her biri 1/4 — köşegen-dışı doludur, bilgi bağımsız. Yapışık: paralar birlikte hareket eder, sadece YY ve TT mümkün (her biri 1/2), YT ve TY sıfır — sadece köşegen dolu. Bir paranın sonucu, bağımsızda diğeri hakkında hiçbir şey, bağımlıda her şeyi söyler.

Soru 4: Covariance matrisi V neden simetrik pozitif yarı-tanımlıdır ve köşegen-dışı sıfır ne anlama gelir?

$V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$, yani pozitif yarı-tanımlı dış-çarpımların olasılık-ağırlıklı toplamı (Ders 5) — dolayısıyla simetrik pozitif yarı-tanımlı. Köşegende varyanslar ($\sigma_{x}^{2}$, $\sigma_{y}^{2}$), köşegen-dışında kovaryans $\sigma_{xy}$ bulunur. Köşegen-dışı sıfır ($\sigma_{xy} = 0$) değişkenlerin bağımsız/ilişkisiz olduğu anlamına gelir; V köşegen matris olur.

21.12 Egzersizler

İki formül. Bir zar (1–6, eşit olasılık 1/6) için $E[x] = m$’yi ve hem $\sigma^{2} = E[(x-m)^{2}]$ hem $\sigma^{2} = E[x^{2}] - m^{2}$ ile varyansı hesapla; aynı çıktığını göster.
Markov sınırı. Ortalaması m = 2 olan negatif-olmayan bir x için $P(x \geq 8)$ en fazla kaç olabilir? Markov sınırı gevşek mi sıkı mı, yorumla.
Chebyshev sınırı. m = 0, σ = 1 olan bir değişken için $P(|x| \geq 2)$ Chebyshev’e göre en fazla kaçtır? (Gauss’ta gerçek değerle karşılaştır: ~0.046.)
Covariance hesabı. Yapışık paralar (YY: 1/2, TT: 1/2; Y=1, T=0). x ve y için $m_{x} = m_{y} = 1/2$. $\sigma_{xy}$ kovaryansını hesapla; $\sigma_{x}^{2}$ ile karşılaştır. V matrisi tekil mi?
(Ders 21 habercisi) Bu derste beklenen değer/varyans gördük; bunlar bir kayıp fonksiyonunun “ortalama” davranışını tanımlar. Peki bir fonksiyonun minimumunu adım adım nasıl buluruz? Türev sıfır olduğunda mı, yoksa iteratif inişle mi? Bir tahmin yaz — Ders 21 “bir fonksiyonu adım adım minimize etmek” (Newton, gradient descent girişi) ile optimizasyon bloğunu açıyor.

21.13 Sonraki Ders İçin Hazırlık

Ders 21: Bir Fonksiyonu Adım Adım Minimize Etmek. İstatistikten optimizasyona geçiş: bir maliyet fonksiyonunun minimumunu nasıl buluruz? Strang Newton yöntemini (ikinci-derece, hızlı ama Hessian gerektirir) ve gradient descent’in (birinci-derece, ölçeklenebilir) temelini kurar — derin öğrenme eğitiminin (Ders 22+) çekirdek algoritması.

Lineer cebirden optimizasyona

Bu ders istatistik bloğunun kapısıydı: beklenen değer, varyans, iki eşitsizlik ve covariance matrisi. Sıradaki blok optimizasyon — kayıp fonksiyonlarını minimize etme. Ders 21’e gelmeden önce gradyan (gradient) ve türev kavramlarını gözden geçir; gradient descent’in tek satırı “negatif gradyan yönünde adım at” olsa da arkasındaki sezgi tüm derin öğrenme eğitiminin temeli.

21.14 Anahtar Kavramlar (Cheat Sheet)

Kavram	Formül / Fikir	Strang (dk)
İstatistik başlıyor	olasılık = derin öğrenmenin parçası	0m28
Beklenen değer	$E[x] = \sum P_{i}x_{i} = m$	0m28
Varyans	$\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$	7m56
Markov eşitsizliği	$P(x \geq a) \leq m/a$ ($x \geq 0$)	8m46
Chebyshev eşitsizliği	$P(\lvert x-m \rvert \geq a) \leq \sigma^{2}/a^{2}$	21m37
Chebyshev kanıtı	Markov’u $y = (x-m)^{2}$’ye uygula	25m05
Ortak olasılık / tensör	bağımsız vs bağımlı; 3 deney → 2×2×2 tensör	37m56
Covariance matrisi	$V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; simetrik PYT	42m37
Bağımsız → köşegen	$\sigma_{xy} = 0 \Rightarrow V$ köşegen	52m10

21.15 ML Bağlantıları Özeti

Risk minimizasyonu: beklenen kayıp $E[\text{loss}]$ minimize etmek = istatistiksel öğrenme; SGD (Ders 25) bunu mini-batch örneklem ortalamasıyla tahmin eder.
Konsantrasyon eşitsizlikleri: Markov/Chebyshev → genelleme sınırları, PAC öğrenme; “örneklem ortalaması gerçek ortalamaya ne kadar yakın?” (LLN’in niceliksel hâli).
Covariance / PCA: veri matrisi A → $(1/n)A^{\top}A$ covariance; özvektörleri ana bileşenler (Ders 7), özdeğerleri varyanslar; Gauss, Mahalanobis, LDA.
Tensör: derin öğrenmenin temel veri yapısı (batch×kanal×H×W); çok-yollu dizi ilk kez burada.
Batch normalization: $E[x^{2}] - m^{2}$ formülü running statistics ile tek geçişte ortalama/varyans.
Çoklu-doğrusallık: tekil (yarı-tanımlı) covariance → kararsız regresyon (Ders 10 kondisyon); PCA sıfıra yakın varyansı atar.
Geriye köprü: Stat 110 §4.B (mean/variance/Markov/Chebyshev/covariance), Ders 5 (pozitif yarı-tanımlı), Ders 7 (PCA), Ders 14 (Kalman covariance), Ders 19 (covariance önizleme).

Kod

ns = [10, 100, 1000, 10000]
stds = sample_mean_concentration(DIE_XS, DIE_PS, ns, reps=2000)
sigma = np.sqrt(35.0 / 12.0)

fig, ax = plt.subplots(figsize=(7, 4.2))
ax.loglog(ns, stds, marker="o", ms=9, color=COL_PRIMARY, lw=2,
          label="MC std(örneklem ort.) — 2000 tekrar")
ax.loglog(ns, sigma / np.sqrt(np.array(ns, dtype=float)), color=COL_VEC3, ls="--", lw=2,
          label="teorik sigma/karekök(n)")
ax.legend()
apply_style(ax)
ax.set_xlabel("n (log)")
ax.set_ylabel("std (log)")
ax.set_title("Chebyshev/LLN niceliksel: örneklem ortalaması sapması sigma/karekök(n) gibi düşer "
             "(MC/teorik oranları 0.97-1.04) — SGD'nin istatistiksel temeli",
             fontsize=9)
plt.show()

Şekil 21.7: Chebyshev/LLN niceliksel: $n$ örnekli örneklem ortalamasının std’si teorik $\sigma/\sqrt{n}$ eğrisini birebir takip eder (MC/teorik oranları 0.97-1.04 bandında). $n$ 10 kat artınca std $\sqrt{10}\approx 3.16$ kat düşer — std(10)/std(1000) = 9.77 ≈ 10. Bu, SGD’nin neden çalıştığının istatistiksel temelidir: daha çok örnek → daha az gürültü.

LLN’in niceliksel yüzü (Şekil 21.7): örneklem ortalamasının standart sapması teorik $\sigma/\sqrt{n}$ eğrisini birebir takip eder (MC/teorik oranları 0.97–1.04 bandında); n 100 kat artınca std 10 kat düşer (std(10)/std(1000) = 9.77 ≈ 10). Bu, Chebyshev’in “örneklem ortalaması gerçek ortalamaya yakınsar” vaadinin sayısal kanıtı ve SGD’nin neden çalıştığının istatistiksel temeli.

İstatistik, lineer cebirin üzerine kurulur

“…part of deep learning as we get there.” — Strang, 0:28

Covariance bir matristir, özdeğerleri varyans yönlerini verir; beklenen değer ve varyans olasılığın iki temel ölçüsü, Markov ve Chebyshev sapmaları sınırlayan iki büyük eşitsizliktir. Bu blok lineer cebir ile optimizasyon ve derin öğrenme arasındaki köprü: covariance PCA’ya, konsantrasyon eşitsizlikleri genelleme sınırlarına, tensör ise derin öğrenmenin temel veri yapısına açılır.

--- title: "Tanımlar ve Eşitsizlikler — Mean, Variance, Covariance" subtitle: "İstatistik bloğu açılışı: Markov, Chebyshev ve covariance matrisi" --- ::: {.callout-note title="Bölüm bilgisi"} Bu ders lineer cebir bloğunu kapatıp **istatistik bloğunu açar**: Strang'in [Ders 20 videosu](https://www.youtube.com/watch?v=nrDkb2MAwSA) (≈55 dk) ve [OCW Lecture 20](https://ocw.mit.edu/courses/18-065-matrix-methods-in-data-analysis-signal-processing-and-machine-learning-spring-2018/resources/lecture-20-definitions-and-inequalities/) temel alınmıştır. Okuma süresi ≈34 dk; önkoşul Ders 19 (covariance önizlemesi). ::: ```{python} #| echo: false """ _engine20.py — MIT 18.065 Ders 20 (Mean, Variance, Markov/Chebyshev, Covariance Matrisi) motor + viz. Setup hücresi = cat. Figür testi `from _engine20 import *`. matplotlib.use("Agg") burada YOK. """ import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import LinearSegmentedColormap COL_PRIMARY = "#1f4e79"; COL_ACCENT = "#2e75b6"; COL_TEXT = "#13243a" COL_BG = "#eaf1f8"; COL_STEEL_300 = "#aac4dd"; COL_SKY_400 = "#6fa8dc" COL_WHITE = "#ffffff" COL_VEC1 = "#1f4e79"; COL_VEC2 = "#2e75b6"; COL_VEC3 = "#e67e22" COL_TEAL = "#17a2b8"; COL_PURPLE = "#6f42c1" NAVY_CMAP = LinearSegmentedColormap.from_list("strang_navy", ["#ffffff", "#cfe0f0", "#6fa8dc", "#2e75b6", "#1f4e79"]) DIVERGE = LinearSegmentedColormap.from_list("div", [COL_VEC3, "#ffffff", COL_PRIMARY]) def apply_style(ax): ax.set_facecolor(COL_WHITE); ax.grid(True, alpha=0.25, color=COL_STEEL_300, linewidth=0.8) for sp in ax.spines.values(): sp.set_color(COL_STEEL_300) ax.tick_params(colors=COL_TEXT); ax.title.set_color(COL_TEXT) ax.xaxis.label.set_color(COL_TEXT); ax.yaxis.label.set_color(COL_TEXT) return ax def heatmap(ax, M, title=None, cmap=None, annotate=True, fmt="{:.2g}", vmin=None, vmax=None, fontsize=11, text_thresh=None): M = np.asarray(M, dtype=float) if cmap is None: cmap = NAVY_CMAP if vmin is None: vmin = float(np.min(M)) if vmax is None: vmax = float(np.max(M)) if abs(vmax - vmin) < 1e-12: vmax = vmin + 1.0 ax.imshow(M, cmap=cmap, vmin=vmin, vmax=vmax, aspect="equal"); nr, nc = M.shape if text_thresh is None: text_thresh = vmin + 0.62*(vmax-vmin) if annotate and nr*nc <= 36: for i in range(nr): for j in range(nc): v = M[i, j] ax.text(j, i, fmt.format(v), ha="center", va="center", color=COL_WHITE if v >= text_thresh else COL_TEXT, fontsize=fontsize, fontweight="bold") ax.set_xticks(range(nc)); ax.set_yticks(range(nr)); ax.set_xticklabels([]); ax.set_yticklabels([]); ax.tick_params(length=0) for sp in ax.spines.values(): sp.set_color(COL_STEEL_300) if title: ax.set_title(title, color=COL_TEXT, fontsize=12, fontweight="bold") # ---- Ders 20 motoru: mean/variance, Markov/Chebyshev, covariance ---- def expectation(xs, ps): """E[x] = Σ Pᵢxᵢ.""" return float(np.asarray(ps, dtype=float) @ np.asarray(xs, dtype=float)) def variance_two_ways(xs, ps): """(σ² tanım E[(x−m)²], σ² ikinci formül E[x²]−m²) — ikisi eşit olmalı.""" xs = np.asarray(xs, dtype=float); ps = np.asarray(ps, dtype=float) m = expectation(xs, ps) v1 = float(ps @ (xs - m) ** 2) v2 = float(ps @ xs ** 2 - m * m) return v1, v2, m def prob_tail(xs, ps, a): """P(x ≥ a) — kesikli dağılımda kuyruk olasılığı.""" xs = np.asarray(xs, dtype=float); ps = np.asarray(ps, dtype=float) return float(ps[xs >= a].sum()) def markov_bound(xs, ps, a): """(gerçek P(x≥a), Markov sınırı m/a). x ≥ 0 şart.""" m = expectation(xs, ps) return prob_tail(xs, ps, a), m / a def chebyshev_bound(xs, ps, a): """(gerçek P(|x−m|≥a), Chebyshev sınırı σ²/a²).""" xs = np.asarray(xs, dtype=float); ps = np.asarray(ps, dtype=float) v, _, m = variance_two_ways(xs, ps) actual = float(ps[np.abs(xs - m) >= a].sum()) return actual, v / (a * a) def chebyshev_via_markov(xs, ps, a): """Kanıt yolu tanığı: y = (x−m)² değişkenine Markov(a²) uygula → Chebyshev sınırıyla AYNI.""" xs = np.asarray(xs, dtype=float); ps = np.asarray(ps, dtype=float) m = expectation(xs, ps) ys = (xs - m) ** 2 # negatif olmayan yeni çıktı _, markov_on_y = markov_bound(ys, ps, a * a) # E[y]/a² = σ²/a² return markov_on_y # -- Paralar: yapışmamış (bağımsız) ve yapışık (tam bağımlı); Y=1, T=0 -- P_UNGLUED = np.array([[0.25, 0.25], [0.25, 0.25]]) P_GLUED = np.array([[0.5, 0.0], [0.0, 0.5]]) COIN_VALS = np.array([1.0, 0.0]) # satır/sütun 0 → Yazı(1), 1 → Tura(0) def marginals(P): """Ortak olasılık matrisinden marjinaller: (satır toplamları, sütun toplamları).""" P = np.asarray(P, dtype=float) return P.sum(axis=1), P.sum(axis=0) def covariance_from_joint(P, xs=None, ys=None): """V = Σᵢⱼ Pᵢⱼ (sapma)(sapma)ᵀ — dersin tanımı birebir (dış-çarpım toplamı).""" P = np.asarray(P, dtype=float) if xs is None: xs = COIN_VALS if ys is None: ys = COIN_VALS xs = np.asarray(xs, dtype=float); ys = np.asarray(ys, dtype=float) px, py = marginals(P) mx = float(px @ xs); my = float(py @ ys) V = np.zeros((2, 2)) for i in range(len(xs)): for j in range(len(ys)): d = np.array([xs[i] - mx, ys[j] - my]) V += P[i, j] * np.outer(d, d) return V, mx, my def tensor_three_coins(p=0.5): """3 bağımsız para → 2×2×2 tensör (her hücre p-çarpımı; adil parada 1/8).""" q = 1.0 - p t = np.zeros((2, 2, 2)) for i in range(2): for j in range(2): for k in range(2): t[i, j, k] = (p if i == 0 else q) * (p if j == 0 else q) * (p if k == 0 else q) return t def random_joint(n=4, seed=0): """Rastgele n×n ortak olasılık matrisi (toplam 1).""" rng = np.random.default_rng(seed) P = rng.random((n, n)) return P / P.sum() def product_joint(px, py): """Bağımsız ortak dağılım: Pᵢⱼ = pₓ(i)·p_y(j) (çarpım) → σ_xy = 0.""" return np.outer(np.asarray(px, dtype=float), np.asarray(py, dtype=float)) def sample_mean_concentration(xs, ps, n_list, reps=2000, seed=21): """LLN/Chebyshev tanığı: n örnekli örneklem ortalamasının std'si σ/√n gibi düşer. Her n için reps tekrar → std(x̄) dizisi döner.""" xs = np.asarray(xs, dtype=float); ps = np.asarray(ps, dtype=float) rng = np.random.default_rng(seed) stds = [] for n in n_list: draws = rng.choice(xs, size=(reps, int(n)), p=ps) stds.append(float(draws.mean(axis=1).std())) return np.array(stds) # -- Zar (Egz1) -- DIE_XS = np.arange(1, 7, dtype=float) DIE_PS = np.full(6, 1.0 / 6.0) ``` ## Bu Derste Ne Var? {#sec-bu-derste-d20} Lineer cebir bloğu kapandı; **istatistik** başlıyor. Bu ders olasılığın temel tanımlarını (beklenen değer, varyans) ve iki büyük eşitsizliği (Markov, Chebyshev) tazeler, sonra **covariance matrisi**ne ulaşır — derin öğrenmenin istatistiksel temeli. Beş sonuç: 1. **Beklenen değer:** $E[x] = \sum_{i} P_{i}x_{i} = m$; **varyans** $\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$. 2. **Markov eşitsizliği** ($x \geq 0$): $P(x \geq a) \leq \frac{m}{a}$. 3. **Chebyshev eşitsizliği:** $P(|x-m| \geq a) \leq \frac{\sigma^{2}}{a^{2}}$ — Markov'dan $y = (x-m)^{2}$ ile kanıtlanır. 4. **Ortak olasılık:** bağımsız (yapışmamış) vs bağımlı (yapışık) paralar; 3 deney → **tensör** (3-yollu dizi). 5. **Covariance matrisi:** $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; köşegen = varyanslar, köşegen-dışı = $\sigma_{xy}$; bağımsız → köşegen; simetrik pozitif yarı-tanımlı. > *"...part of deep learning as we get there."* — Strang, 0:28 ```{mermaid} %%| label: fig-kavram-haritasi-l20 %%| fig-cap: "Ders 20 kavram haritasi: \"Istatistik basliyor: tanimlar + esitsizlikler\" merkezde; beklenen deger E[x], varyans sigma^2, Markov esitsizligi, Chebyshev (Markov dan kanit) ve ortak olasilik (yapismamis vs yapisik paralar) dallarda; uc deneyin tensore tasmasi, covariance V nin agirlikli dis-carpim toplami olarak simetrik PSD olusu ve bagimsizligin kosegen V vermesi ayri dugumlerde." %%| echo: false flowchart TB M["Istatistik basliyor: tanimlar + esitsizlikler"] M --> E["beklenen deger: E[x] = toplam P_i x_i = m"] M --> VAR["varyans: sigma^2 = E[(x-m)^2] = E[x^2] - m^2"] M --> MK["Markov (x >= 0): P(x >= a) <= m/a"] M --> CH["Chebyshev: P(|x-m| >= a) <= sigma^2/a^2 (Markov dan kanit)"] M --> OO["ortak olasilik: yapismamis vs yapisik paralar"] MK --> CH T["3 deney -> TENSOR (2x2x2)"] V["covariance V = agirlikli dis-carpim toplami: simetrik PSD"] D["bagimsiz -> kosegen V"] OO --> T OO --> V V --> D classDef center fill:#1f4e79,stroke:#163a5c,color:#ffffff,stroke-width:2px; classDef branch fill:#2e75b6,stroke:#1f4e79,color:#ffffff,stroke-width:1px; classDef side fill:#9dc3e6,stroke:#2e75b6,color:#11151c,stroke-width:1px; class M center; class E,VAR,MK,CH,OO branch; class T,V,D side; ``` Kavram haritası (@fig-kavram-haritasi-l20) dersin akışını gösterir: merkezdeki "istatistik başlıyor" düğümünden beş dal (beklenen değer, varyans, Markov, Chebyshev, ortak olasılık) çıkar; Markov, Chebyshev'i besler (kanıt oku), ortak olasılık ise hem tensöre hem covariance matrisine açılır. ::: {.callout-tip} ## Builder Notu — İstatistik Bloğunun Kapısı Burası kitabın ikinci yarısının başlangıcı: 19 dersin lineer cebiri artık olasılığa hizmet ediyor. **Covariance matrisi = veri yapısı** — PCA (Ders 7), Mahalanobis mesafesi, Gauss dağılımı, Kalman filtresi (Ders 14) hep bu simetrik pozitif yarı-tanımlı matrise dayanır. **Markov/Chebyshev = konsantrasyon eşitsizlikleri** — ML genelleme sınırlarının (generalization bounds) ataları; "örneklem ortalaması gerçek ortalamaya ne kadar yakın?" sorusunu yanıtlar. **Tensör** — derin öğrenmenin temel veri yapısı (PyTorch/NumPy ndarray); 3+ yollu dizi ilk kez burada çıkıyor. Geriye köprü: Stat 110 (mean/variance/Markov/Chebyshev — §4.B), Ders 5 (pozitif tanımlı), Ders 19 (covariance önizleme). ::: ## 1. Beklenen Değer (Mean) {#sec-beklenen-deger} İstatistik bloğu başlıyor — derin öğrenmenin de bir parçası. > *"...part of deep learning as we get there."* — Strang, 0:28 Örneklem ortalaması (sample mean) veriden hesaplanır; **beklenen değer** ise olasılıklarla ağırlıklı ortalamadır. x değeri $P_{1}$ olasılıkla $x_{1}$, …, $P_{n}$ olasılıkla $x_{n}$ alıyorsa: $$E[x] = P_{1}x_{1} + P_{2}x_{2} + \cdots + P_{n}x_{n} = m$$ E sembolü her yerde kullanılır — pratik bir kısaltma. Genel olarak herhangi bir $f(x)$ fonksiyonunun beklenen değeri de olasılıklarla ağırlıklıdır: $$E[f(x)] = \sum_{i} P_{i}\,f(x_{i})$$ ::: {.callout-tip} ## Builder Notu — Riskin Dili E Sembolü Beklenen değer = olasılık-ağırlıklı ortalama; örneklem ortalaması bunun veriden tahminidir. ML köprüsü: bir kayıp fonksiyonunun beklenen değerini (risk) minimize etmek istatistiksel öğrenmenin tanımıdır; SGD (Ders 25) bu beklenen değeri mini-batch örneklem ortalamasıyla tahmin eder. $E[\cdot]$ gösterimi tüm makine öğrenmesi teorisinin dili. ::: ## 2. Varyans {#sec-varyans} Varyans, beklenen değerin özel bir hâli: ortalamadan uzaklığın karesinin beklenen değeri: $$\sigma^{2} = E[(x - m)^{2}] = \sum_{i} P_{i}(x_{i} - m)^{2}$$ Kare şart — işaretten bağımsız bir yayılım ölçüsü verir. m = ortalama (mean). Varyans, dağılımın ortalama etrafında ne kadar saçıldığını ölçer. ```{python} #| label: fig-zar-varyans #| fig-cap: "Zar dağılımı: beklenen değer m = 3.5 ve varyansın iki formülle birebir aynı çıkışı (35/12 ≈ 2.917)." #| fig-width: 7.5 #| fig-height: 4 #| code-fold: true v1, v2, m = variance_two_ways(DIE_XS, DIE_PS) sigma = np.sqrt(v1) fig, ax = plt.subplots(figsize=(7.5, 4)) ax.bar(DIE_XS, DIE_PS, color=COL_PRIMARY, width=0.6) ax.axvline(m, color=COL_VEC3, linewidth=3, label="m = 3.5") ax.text(m + 0.08, 0.235, "m = 3.5", color=COL_VEC3, fontsize=11, fontweight="bold", va="top") ax.axvspan(m - sigma, m + sigma, color=COL_TEAL, alpha=0.12) ax.text(m + sigma + 0.05, 0.05, "m +- sigma (sigma = 1.708)", color=COL_TEAL, fontsize=9.5, fontweight="bold", rotation=90, va="bottom") ax.text(0.55, 0.215, "iki formul birebir:\nE[(x-m)^2] = E[x^2] - m^2 = 35/12 = 2.917", color=COL_TEXT, fontsize=9.5, bbox=dict(boxstyle="round,pad=0.4", facecolor=COL_BG, edgecolor=COL_STEEL_300)) apply_style(ax) ax.set_xlabel("zar degeri"); ax.set_ylabel("olasilik") ax.set_ylim(0, 0.25) ax.set_title("Zar: beklenen deger m = 3.5, varyans iki formulle ayni (35/12 = 2.917, fark ~ 4e-16)", color=COL_TEXT, fontsize=11, fontweight="bold") plt.show() ``` ::: {.callout-tip} ## Builder Notu — Saçılımın Karesi Varyans = ortalamadan kare-uzaklığın ortalaması. ML köprüsü: bias-variance ayrışımı (model hatasının iki kaynağı), gradyan gürültüsünün varyansı (SGD yakınsama hızını belirler), ve PCA'da varyans-maksimizasyonu — hepsi bu tek tanıma dayanır. Yüksek varyans = aşırı-öğrenme sinyali. ::: ## 3. Varyans için İkinci Formül {#sec-ikinci-formul} Kareyi açıp yeniden düzenleyerek varyansın çok kullanışlı (ve hesaplaması hızlı) ikinci biçimi çıkar: $$\sigma^{2} = E[x^{2}] - m^{2}$$ > *"...the expected value of x squared minus m squared. It's just algebra."* — Strang, 7:56 İspat lise cebiri: $\sum P_{i}(x_{i}-m)^{2}$ açılınca $\sum P_{i}x_{i}^{2} - 2m \sum P_{i}x_{i} + m^{2} \sum P_{i}$. Son terimde $\sum P_{i} = 1$, orta terimde $\sum P_{i}x_{i} = m$, yani $-2m \cdot m + m^{2} = -m^{2}$. Geriye $E[x^{2}] - m^{2}$ kalır. Zar örneği (@fig-zar-varyans), bu iki formülün birebir aynı sonucu verdiğini sayısal olarak doğrular: $m = 3.5$, her iki yoldan $\sigma^{2} = 35/12 \approx 2.917$, aradaki fark yalnızca yuvarlama düzeyinde ($\sim 4 \times 10^{-16}$). $m \pm \sigma$ bandı ($\sigma \approx 1.708$) dağılımın çoğunu kapsar. ::: {.callout-tip} ## Builder Notu — Tek Geçişte Varyans "Karelerin ortalaması eksi ortalamanın karesi" formülü tek geçişte (online) varyans hesaplamayı sağlar — $\sum x^{2}$ ve $\sum x$ biriktirip sonda birleştir. ML köprüsü: batch normalization ve running statistics (çalışan istatistikler) tam bu formülü kullanır; veri akışında ortalama ve varyansı tek geçişte günceller. ::: ## 4. Markov Eşitsizliği {#sec-markov} İstatistiğin iki büyük eşitsizliğinden ilki Markov'dan (1900'lerin büyük Rus olasılıkçısı): > *"And the first one is due to Markov."* — Strang, 8:46 **Negatif olmayan** çıktılar için (tüm $x_{i} \geq 0$), x'in a'dan büyük olma olasılığını ortalama ile sınırlar: $$P(x \geq a) \leq \frac{m}{a} \qquad (x \geq 0)$$ a büyüdükçe olasılık düşer (daha fazlasını istiyoruz). Örnek: m = 1, a = 3 → $P(x \geq 3) \leq 1/3$. İspat sezgisi: $x_{3}P_{3} + x_{4}P_{4} + \cdots \leq \sum x_{i}P_{i} = m$; tüm terimler negatif olmadığından ve toplam m olduğundan, "a'yı aşan" kısım m/a'yı geçemez. ```{python} #| label: fig-markov #| fig-cap: "Markov eşitsizliği iki yüzü. Sol: dört-noktalı dağılımda ($m = 0.95$) gerçek $P(x \\geq a)$ basamak eğrisi (navy) ile Markov sınırı $m/a$ (turuncu) — sınır eşiğin her değerinde gerçek olasılığın üstünde, aradaki gri bölge sınırın gevşekliği. Sağ: eşitliğin sağlandığı tek aile — kütle yalnız $\\{0, a\\}$'da yoğunlaşırsa ($a = 5$, $P = [0.6, 0.4]$) gerçek olasılık ile sınır birebir çakışır (her ikisi de 0.40)." #| fig-width: 10 #| fig-height: 4 #| code-fold: true fig, axs = plt.subplots(1, 2, figsize=(10, 4)) # Sol: a taramasi — gercek P(x >= a) vs Markov siniri m/a xs1 = np.array([0., 1., 2., 3.]) ps1 = np.array([0.4, 0.35, 0.15, 0.1]) m1 = expectation(xs1, ps1) # = 0.95 a_scan = np.linspace(0.5, 3.5, 200) gercek = [prob_tail(xs1, ps1, a) for a in a_scan] sinir = [m1 / a for a in a_scan] axs[0].step(a_scan, gercek, where="post", color=COL_PRIMARY, lw=2, label="gercek P(x >= a)") axs[0].plot(a_scan, sinir, color=COL_VEC3, lw=2, label="Markov siniri m/a") axs[0].fill_between(a_scan, gercek, sinir, color=COL_STEEL_300, alpha=0.25) axs[0].set_xlabel("a"); axs[0].set_ylabel("olasilik") axs[0].set_title("a taramasi: sinir HEP gercek olasiligin ustunde", fontsize=11) axs[0].legend() apply_style(axs[0]) # Sag: esitlik durumu — iki-noktali {0, 5} dagilim, a = 5 xs_eq = np.array([0., 5.]) ps_eq = np.array([0.6, 0.4]) a_eq = 5.0 gercek_eq, sinir_eq = markov_bound(xs_eq, ps_eq, a_eq) # 0.4 ve 0.4 AYNI bars = axs[1].bar([0, 1], [gercek_eq, sinir_eq], width=0.5, color=[COL_PRIMARY, COL_VEC3]) axs[1].set_xticks([0, 1]); axs[1].set_xticklabels(["gercek P(x >= 5)", "Markov siniri m/5"]) axs[1].set_ylabel("olasilik"); axs[1].set_ylim(0, 0.55) axs[1].set_title("esitlik durumu: gercek = sinir = 0.4", fontsize=11) for b, v in zip(bars, [gercek_eq, sinir_eq]): axs[1].text(b.get_x() + b.get_width() / 2, v + 0.012, "%.2f" % v, ha="center", va="bottom", color=COL_TEXT, fontweight="bold") axs[1].annotate("esitlik: kutle yalniz {0, a} da", xy=(0.5, 0.4), xytext=(0.5, 0.5), ha="center", color=COL_TEXT, fontsize=10, arrowprops=dict(arrowstyle="->", color=COL_TEXT)) apply_style(axs[1]) fig.suptitle("Markov (x >= 0): P(x >= a) <= m/a — sabit dagilimda 200 esik (a) degerinde ihlal 0; esitlik yalniz iki-noktali {0, a} dagiliminda", fontsize=11, color=COL_TEXT) fig.tight_layout(rect=[0, 0, 1, 0.95]) plt.show() ``` Markov'un iki yüzü (@fig-markov): solda sabit bir dört-noktalı dağılımda eşik a, $0.5 \to 3.5$ boyunca (200 nokta) tarandıkça gerçek $P(x \geq a)$ basamak eğrisi sınır $m/a$ eğrisinin daima altında kalır — taranan 200 eşik değerinin hiçbirinde ihlal yok (ihlal sayısı 0). Sağda eşitliğin sağlandığı tek aile gösterilir: kütle yalnız $\{0, a\}$ iki noktasına toplanırsa gerçek olasılık sınıra dokunur ($a = 5$ için her ikisi de 0.40). ::: {.callout-tip} ## Builder Notu — Az Varsayım Zayıf Sınır Markov, en az varsayımla (sadece $x \geq 0$) en zayıf ama en genel sınırı verir. ML köprüsü: konsantrasyon eşitsizliklerinin (concentration inequalities) atası; genelleme sınırları, PAC öğrenme ve "kötü olay" olasılıklarını sınırlamak hep Markov-tipi argümanla başlar. Gauss gibi negatif değer alan dağılımlara uygulanamaz — sınırı orada Chebyshev devralır. ::: ## 5. Chebyshev Eşitsizliği {#sec-chebyshev} İkinci büyük eşitsizlik Chebyshev'den (dönemin diğer büyük Rus olasılıkçısı). Markov'un $x \geq 0$ varsayımını yapmaz: > *"Chebyshev is the other great Russian probabilist of the time."* — Strang, 21:37 Ortalamadan **uzaklığı** (her iki yöne) sınırlar — varyans devreye girer: $$P(|x - m| \geq a) \leq \frac{\sigma^{2}}{a^{2}}$$ Zekice olan: ispat doğrudan Markov'dan gelir. > *"...the proof of Chebyshev comes directly from Markov."* — Strang, 25:05 Yeni bir çıktı tanımla: $y = (x - m)^{2}$ (negatif olmayan! aynı olasılıklarla). Markov'u y'ye uygula: $P(y \geq a^{2}) \leq E[y]/a^{2} = \sigma^{2}/a^{2}$. Ama $y \geq a^{2}$ demek $|x - m| \geq a$ demektir. Sonuç Chebyshev. ```{python} #| label: fig-chebyshev-kanit #| fig-cap: "Chebyshev = Markov'un $(x-m)^2$'ye uygulanması: gerçek kuyruk (navy basamak) iki sınırın altında kalır; Chebyshev $\\sigma^2/a^2$ (turuncu) ile Markov($y=(x-m)^2$) eğrisi (teal kesik) BİREBİR çakışır — kanıtın kendisi. Sağda standart normalde gerçek $P(|x|\\geq 2)=0{,}045$, Chebyshev sınırı $0{,}25$ (5,5 kat gevşek ama dağılım-bağımsız)." #| fig-width: 10 #| fig-height: 4 #| code-fold: true fig, axs = plt.subplots(1, 2, figsize=(10, 4)) # --- Sol: kanit gorseli (Chebyshev = Markov uygulandi) --- xs_c = np.array([-2., 0., 1., 4.]) ps_c = np.array([0.2, 0.3, 0.3, 0.2]) a_scan = np.linspace(0.5, 4, 200) gercek = [chebyshev_bound(xs_c, ps_c, a)[0] for a in a_scan] cheb = [chebyshev_bound(xs_c, ps_c, a)[1] for a in a_scan] mkv = [chebyshev_via_markov(xs_c, ps_c, a) for a in a_scan] axs[0].step(a_scan, gercek, where="mid", color=COL_PRIMARY, lw=1.8, label="gercek P(|x-m| >= a)") axs[0].plot(a_scan, cheb, color=COL_VEC3, lw=2.5, label="Chebyshev sigma^2/a^2") axs[0].plot(a_scan, mkv, color=COL_TEAL, lw=2, linestyle="--", label="Markov(y=(x-m)^2) — AYNI egri (kanit)") axs[0].set_xlabel("esik a"); axs[0].set_ylabel("olasilik / sinir") axs[0].set_ylim(0, 2.2); axs[0].legend(fontsize=8.5, loc="upper right") axs[0].set_title("Sol: iki sinir egrisi cakisir (kanit)", color=COL_TEXT, fontsize=11, fontweight="bold") apply_style(axs[0]) # --- Sag: Gauss histogrami, |x|>=2 vurgu --- rngg = np.random.default_rng(5) g = rngg.standard_normal(200000) axs[1].hist(g, bins=80, color=COL_STEEL_300, density=True, label="standart normal") mask = np.abs(g) >= 2 axs[1].hist(g[mask], bins=80, color=COL_VEC3, density=False, weights=np.full(mask.sum(), 1.0 / (g.size * (g.max() - g.min()) / 80)), alpha=0.9, label="|x| >= 2 (kuyruk)") axs[1].set_xlabel("x"); axs[1].set_ylabel("yogunluk") axs[1].text(0.02, 0.97, "gercek P(|x|>=2) = 0.045\nvs Chebyshev 0.25\n(5.5 kat gevsek ama\nDAGILIM-BAGIMSIZ)", transform=axs[1].transAxes, va="top", ha="left", fontsize=8.5, bbox=dict(boxstyle="round", fc=COL_BG, ec=COL_ACCENT, alpha=0.95)) axs[1].set_title("Sag: Gauss ta sinir gevsek ama evrensel", color=COL_TEXT, fontsize=11, fontweight="bold") apply_style(axs[1]) fig.suptitle("Chebyshev = Markov un (x-m)^2 ye uygulanmasi: iki sinir egrisi BIREBIR cakisir (1.6933 = 1.6933)", color=COL_TEXT, fontsize=11.5, fontweight="bold") fig.tight_layout(rect=[0, 0, 1, 0.95]) plt.show() ``` Kanıt görseli (@fig-chebyshev-kanit) tam da bu hamleyi gösterir: solda Chebyshev sınırı $\sigma^{2}/a^{2}$ (turuncu) ile "Markov'u $y=(x-m)^{2}$'ye uygula" eğrisi (teal kesik) birebir çakışır — sayısal tanık $1.6933 = 1.6933$. Sağda standart normal için Chebyshev sınırı işler: gerçek $P(|x| \geq 2) \approx 0.045$, sınır 0.25 (yaklaşık 5,5 kat gevşek). Bu gevşeklik bedel: Markov negatif değerli Gauss'a uygulanamaz, ama Chebyshev her dağılıma uygulanır. ::: {.callout-tip} ## Builder Notu — Markov'u Kareye Uygula Chebyshev mutlak değer/uzaklık ile çalışır, yani işaretsiz — varyans temelli. "Markov'u $(x-m)^{2}$'ye uygula" hamlesi, negatif-olmayan bir dönüşüm bulup genel bir eşitsizliği özelden türetmenin klasik örneği. ML köprüsü: büyük sayılar yasasının (LLN) niceliksel hâli; örneklem ortalamasının gerçek ortalamaya yakınsama hızını (1/n) Chebyshev verir — SGD'nin neden işe yaradığının temeli. ::: ## 6. Ortak Olasılık: Yapışmamış ve Yapışık Paralar {#sec-ortak-olasilik} Covariance'a geçmeden önce **ortak olasılık** (joint probability). İki para at; sonuçları bir 2×2 matriste topla. **Yapışmamış** (bağımsız) paralar: her kombinasyon eşit olasılıklı: $$P_{\text{unglued}} = \begin{bmatrix} 1/4 & 1/4 \\ 1/4 & 1/4 \end{bmatrix}$$ **Yapışık** (tam bağımlı) paralar: biri yazı gelirse diğeri de yazı; sadece YY veya TT mümkün: $$P_{\text{glued}} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix}$$ Bir paranın sonucunu bilmek diğeri hakkında: bağımsızda hiçbir şey, bağımlıda her şeyi söyler. Üç deney (üç para) yaparsan, ortak olasılıklar artık bir matrise sığmaz — üç indis gerekir: > *"...we're seeing for the first time a tensor."* — Strang, 37:56 Üç para → 2×2×2 bir **tensör** (8 girdi); bağımsızsa her biri 1/8. Tensör = çok-yollu matris (satır, sütun, katman). ```{python} #| label: fig-paralar-tensor #| fig-cap: "Ortak olasılık matrisleri ve ilk tensör: yapışmamış (bağımsız) paralarda dört hücre de 1/4, yapışık paralarda kütle yalnız YY ve TT köşegeninde (her biri 1/2), üç paranın deneyi ise artık matrise sığmaz ve 2×2×2 tensöre taşar (her hücre 1/8)." #| fig-width: 10 #| fig-height: 3.4 #| code-fold: true fig, axs = plt.subplots(1, 3, figsize=(10, 3.4)) heatmap(axs[0], P_UNGLUED, "yapismamis (bagimsiz): hepsi 1/4", fmt="{:.2f}") heatmap(axs[1], P_GLUED, "yapisik: yalniz YY ve TT", fmt="{:.2f}") T = tensor_three_coins() heatmap(axs[2], np.hstack([T[:, :, 0], T[:, :, 1]]), "3 para -> 2x2x2 tensor (iki katman; hepsi 1/8)", fmt="{:.3f}") fig.suptitle("Ortak olasilik: bagimsizda bilgi yok, yapisikta tam bilgi; uc deney matrise sigmaz -> ILK TENSOR", fontsize=11, color=COL_TEXT) fig.tight_layout() plt.show() ``` İki para matrisi ile ilk tensör (@fig-paralar-tensor): solda yapışmamış paraların dört hücresi de 1/4, ortada yapışık paralarda kütle yalnız YY/TT köşegeninde (her biri 1/2), sağda üç para için 2×2×2 tensör iki katman olarak gösterilir (her hücre 1/8). ::: {.callout-tip} ## Builder Notu — Köşegen-Dışı Bağımlılık Kodlar Ortak olasılık matrisinin köşegen-dışı yapısı bağımlılığı kodlar: bağımsız = köşegen-baskın değil, eşit dağılım; bağımlı = sıfırlar belirir. ML köprüsü: tensör derin öğrenmenin temel veri yapısıdır (PyTorch/NumPy ndarray) — bir görüntü batch'i 4-yollu tensördür (batch×kanal×yükseklik×genişlik). Strang'ın "ilk kez tensör görüyoruz" anı, lineer cebirden çok-boyutlu dizilere geçişin kapısı. ::: ## 7. Covariance Matrisi {#sec-covariance-d20} Günün varış noktası: > *"...what is the covariance matrix?"* — Strang, 42:37 İki deney aynı anda koşar (deney 1 → x, deney 2 → y). Tüm olası $(x_{i}, y_{j})$ çiftleri üzerinde, ortak olasılık $P_{ij}$ ile ağırlıklı, sapmaların **dış-çarpımı** (kolon × satır): $$V = \sum_{i,j} P_{ij} \begin{bmatrix} x_{i} - m_{x} \\ y_{j} - m_{y} \end{bmatrix} \begin{bmatrix} x_{i} - m_{x} & y_{j} - m_{y} \end{bmatrix}$$ İki deney → 2×2 matris. (1,1) girdisi: $(x-m_{x})^{2}$ ağırlıklı toplam = x'in varyansı $\sigma_{x}^{2}$. (2,2): $\sigma_{y}^{2}$. Köşegen-dışı (1,2) = (2,1): **kovaryans** $\sigma_{xy}$ (simetrik): $$V = \begin{bmatrix} \sigma_{x}^{2} & \sigma_{xy} \\ \sigma_{xy} & \sigma_{y}^{2} \end{bmatrix}$$ Köşegen = ayrı ayrı varyanslar, köşegen-dışı = değişkenler arası ilişki. Dış-çarpım yapısı (Ders 1) covariance'ı doğal olarak simetrik kılar. ```{python} #| label: fig-covariance-dis-carpim #| fig-cap: "Covariance = olasılık-ağırlıklı dış-çarpım toplamı: SOL bağımsız paralarda V = diag(1/4, 1/4) (köşegen, σ_xy = 0); ORTA yapışık paralarda V = [[1/4,1/4],[1/4,1/4]] tekil (det = 0, yarı-tanımlı); SAĞ 20 rastgele ortak dağılımın V özdeğer çifti hep λ_min > 0 bölgesinde (PSD), yapışık paranın noktası (0, 0.5) tam tekil sınırda. V her zaman simetrik ve PSD." #| fig-width: 10.5 #| fig-height: 3.4 #| code-fold: true fig, axs = plt.subplots(1, 3, figsize=(10.5, 3.4)) Vu, _, _ = covariance_from_joint(P_UNGLUED) Vg, _, _ = covariance_from_joint(P_GLUED) heatmap(axs[0], Vu, "bağımsız: V = diag(1/4, 1/4)", fmt="{:.2f}") heatmap(axs[1], Vg, "yapışık: TEKİL (det = 0)", fmt="{:.2f}") for t in range(20): P_r = random_joint(4, seed=t) V_r, _, _ = covariance_from_joint(P_r, np.arange(4.), np.array([0., 2., 3., 7.])) lams = np.linalg.eigvalsh(V_r) axs[2].scatter(lams[0], lams[1], color=COL_PRIMARY, s=45, zorder=3) axs[2].scatter(0, 0.5, color=COL_VEC3, marker="*", s=140, zorder=4) axs[2].annotate("tekil sınır (yapışık)", xy=(0, 0.5), xytext=(0.6, 0.9), color=COL_VEC3, fontsize=9, arrowprops=dict(arrowstyle="->", color=COL_VEC3)) axs[2].axvline(0, color=COL_STEEL_300, linestyle="--", linewidth=1.2, zorder=1) axs[2].set_xlabel("lambda_min") axs[2].set_ylabel("lambda_max") apply_style(axs[2]) fig.suptitle("Covariance = olasılık-ağırlıklı dış-çarpım toplamı -> HER ZAMAN simetrik PSD; bağımsız köşegen, tam bağımlı tekil") fig.tight_layout() plt.show() ``` Covariance'ın yapısı (@fig-covariance-dis-carpim): solda bağımsız paralarda $V = \text{diag}(1/4, 1/4)$ (köşegen, $\sigma_{xy} = 0$), ortada yapışık paralarda $V$'nin tüm girdileri 1/4 olduğundan determinant sıfır — tekil/yarı-tanımlı. Sağda 20 rastgele ortak dağılımın özdeğer çiftleri $(\lambda_{\min}, \lambda_{\max})$ daima $\lambda_{\min} > 0$ bölgesinde (en küçüğü 0.92), yapışık paranın noktası (0, 0.5) tam tekil sınırda. ::: {.callout-tip} ## Builder Notu — Dış-Çarpımların Ağırlıklı Toplamı Covariance matrisi = dış-çarpımların olasılık-ağırlıklı toplamı (Ders 1 $uv^{\top}$ deseni). Köşegen-dışı terimler değişkenlerin birlikte nasıl değiştiğini söyler. ML köprüsü: veri matrisi A için $(1/n)A^{\top}A$ merkezlenmiş covariance'tır; özvektörleri ana bileşenler (PCA, Ders 7), özdeğerleri varyans miktarları. Gauss dağılımı, Mahalanobis mesafesi ve LDA hep V'ye dayanır. ::: ## 8. Pozitif Yarı-Tanımlı ve Bağımsızlık {#sec-psd-bagimsizlik} Dış-çarpım toplamı olduğundan covariance matrisi her zaman **simetrik pozitif yarı-tanımlıdır** (Ders 5): her sapma-dış-çarpımı pozitif yarı-tanımlı, toplamları da öyle. Bağımsız (yapışmamış) deneylerde kovaryans sıfırdır: > *"...in that case, those are 0."* — Strang, 52:10 $$\text{independent} \;\Rightarrow\; \sigma_{xy} = 0 \;\Rightarrow\; V = \begin{bmatrix} \sigma_{x}^{2} & 0 \\ 0 & \sigma_{y}^{2} \end{bmatrix}$$ Bağımsızlıkta V köşegen — sadece ayrı varyanslar. Tam bağımlılıkta (yapışık) V tekildir (pozitif **yarı**-tanımlı, det = 0). Ek not: ortak olasılıkları bir indis üzerinden toplamak ($\sum_{i} P_{ij} = P_{j}$) **marjinal** olasılıkları verir. ::: {.callout-tip} ## Builder Notu — Sıfır Özdeğer Tam Bağımlılık "Bağımsız → köşegen covariance" ve "tam bağımlı → tekil (yarı-tanımlı)" ayrımı, covariance'ın özdeğerlerinin bağımlılık yapısını okuduğunu gösterir: sıfır özdeğer = mükemmel doğrusal bağımlılık. ML köprüsü: çoklu-doğrusallık (multicollinearity) tam budur — neredeyse-tekil covariance regresyonu kararsız kılar (Ders 10 kondisyon); PCA bu yönde varyansı sıfıra yakın bileşenleri atar. ::: ## Bu Dersin Özeti {#sec-ozet-d20} - **Beklenen değer:** $E[x] = \sum P_{i}x_{i} = m$; genel olarak $E[f(x)] = \sum P_{i}f(x_{i})$. - **Varyans:** $\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$ (ikinci formül tek geçişte hesaplanır). - **Markov ($x \geq 0$):** $P(x \geq a) \leq m/a$. En genel, en zayıf sınır. - **Chebyshev:** $P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$; Markov'u $y = (x-m)^{2}$'ye uygulayarak kanıtlanır. - **Ortak olasılık:** bağımsız (köşegen-dışı bilgi yok) vs bağımlı; 3 deney → tensör (2×2×2). - **Covariance matrisi:** $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; köşegen = varyanslar, köşegen-dışı = $\sigma_{xy}$; simetrik pozitif yarı-tanımlı. - **Bağımsızlık → köşegen V** ($\sigma_{xy} = 0$); tam bağımlılık → tekil V. ::: {.callout-important} ## Tek Bir Cümle Beklenen değer ve varyans olasılığın temel ölçüleridir; Markov ($P(x \geq a) \leq m/a$) ve Chebyshev ($P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$) sapmaları sınırlar; covariance matrisi ise değişkenler arası ilişkiyi simetrik pozitif yarı-tanımlı bir matris olarak kodlar (köşegen = varyans, köşegen-dışı = kovaryans). ::: ## Kontrol Soruları {#sec-sorular-d20} ::: {.callout-note collapse="true"} ## Soru 1: Varyansın iki formülü nedir ve ikincisi neden hesaplama açısından kullanışlı? $\sigma^{2} = E[(x-m)^{2}]$ (sapma-kare ortalaması) ve $\sigma^{2} = E[x^{2}] - m^{2}$ (karelerin ortalaması eksi ortalamanın karesi). İkincisi kullanışlı çünkü $\sum x^{2}$ ve $\sum x$'i tek veri geçişinde biriktirip sonda birleştirirsin — online/running varyans hesabı. İspatı lise cebiri: kareyi açıp $\sum P_{i} = 1$ ve $\sum P_{i}x_{i} = m$ kullan. ::: ::: {.callout-note collapse="true"} ## Soru 2: Markov ve Chebyshev eşitsizlikleri arasındaki fark nedir, ve Chebyshev nasıl kanıtlanır? Markov yalnız $x \geq 0$ için geçerli: $P(x \geq a) \leq m/a$. Chebyshev bu varsayımı yapmaz; ortalamadan uzaklığı (her iki yön) sınırlar: $P(|x-m| \geq a) \leq \sigma^{2}/a^{2}$. Chebyshev, Markov'u negatif-olmayan yeni değişken $y = (x-m)^{2}$'ye uygulayarak kanıtlanır: $P(y \geq a^{2}) \leq E[y]/a^{2} = \sigma^{2}/a^{2}$, ve $y \geq a^{2} \Leftrightarrow |x-m| \geq a$. ::: ::: {.callout-note collapse="true"} ## Soru 3: İki yazı-tura için yapışmamış (bağımsız) ve yapışık (bağımlı) ortak olasılık matrisleri nasıl farklıdır? Yapışmamış: dört kombinasyon (YY, YT, TY, TT) eşit olasılıklı, her biri 1/4 — köşegen-dışı doludur, bilgi bağımsız. Yapışık: paralar birlikte hareket eder, sadece YY ve TT mümkün (her biri 1/2), YT ve TY sıfır — sadece köşegen dolu. Bir paranın sonucu, bağımsızda diğeri hakkında hiçbir şey, bağımlıda her şeyi söyler. ::: ::: {.callout-note collapse="true"} ## Soru 4: Covariance matrisi V neden simetrik pozitif yarı-tanımlıdır ve köşegen-dışı sıfır ne anlama gelir? $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$, yani pozitif yarı-tanımlı dış-çarpımların olasılık-ağırlıklı toplamı (Ders 5) — dolayısıyla simetrik pozitif yarı-tanımlı. Köşegende varyanslar ($\sigma_{x}^{2}$, $\sigma_{y}^{2}$), köşegen-dışında kovaryans $\sigma_{xy}$ bulunur. Köşegen-dışı sıfır ($\sigma_{xy} = 0$) değişkenlerin **bağımsız/ilişkisiz** olduğu anlamına gelir; V köşegen matris olur. ::: ## Egzersizler {#sec-egzersizler-d20} 1. **İki formül.** Bir zar (1–6, eşit olasılık 1/6) için $E[x] = m$'yi ve hem $\sigma^{2} = E[(x-m)^{2}]$ hem $\sigma^{2} = E[x^{2}] - m^{2}$ ile varyansı hesapla; aynı çıktığını göster. 2. **Markov sınırı.** Ortalaması m = 2 olan negatif-olmayan bir x için $P(x \geq 8)$ en fazla kaç olabilir? Markov sınırı gevşek mi sıkı mı, yorumla. 3. **Chebyshev sınırı.** m = 0, σ = 1 olan bir değişken için $P(|x| \geq 2)$ Chebyshev'e göre en fazla kaçtır? (Gauss'ta gerçek değerle karşılaştır: ~0.046.) 4. **Covariance hesabı.** Yapışık paralar (YY: 1/2, TT: 1/2; Y=1, T=0). x ve y için $m_{x} = m_{y} = 1/2$. $\sigma_{xy}$ kovaryansını hesapla; $\sigma_{x}^{2}$ ile karşılaştır. V matrisi tekil mi? 5. **(Ders 21 habercisi)** Bu derste beklenen değer/varyans gördük; bunlar bir kayıp fonksiyonunun "ortalama" davranışını tanımlar. Peki bir fonksiyonun minimumunu adım adım nasıl buluruz? Türev sıfır olduğunda mı, yoksa iteratif inişle mi? Bir tahmin yaz — Ders 21 "bir fonksiyonu adım adım minimize etmek" (Newton, gradient descent girişi) ile optimizasyon bloğunu açıyor. ## Sonraki Ders İçin Hazırlık {#sec-sonraki-d20} **Ders 21: Bir Fonksiyonu Adım Adım Minimize Etmek.** İstatistikten optimizasyona geçiş: bir maliyet fonksiyonunun minimumunu nasıl buluruz? Strang Newton yöntemini (ikinci-derece, hızlı ama Hessian gerektirir) ve gradient descent'in (birinci-derece, ölçeklenebilir) temelini kurar — derin öğrenme eğitiminin (Ders 22+) çekirdek algoritması. ::: {.callout-warning} ## Lineer cebirden optimizasyona Bu ders istatistik bloğunun kapısıydı: beklenen değer, varyans, iki eşitsizlik ve covariance matrisi. Sıradaki blok **optimizasyon** — kayıp fonksiyonlarını minimize etme. Ders 21'e gelmeden önce gradyan (gradient) ve türev kavramlarını gözden geçir; gradient descent'in tek satırı "negatif gradyan yönünde adım at" olsa da arkasındaki sezgi tüm derin öğrenme eğitiminin temeli. ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-sheet-d20} | Kavram | Formül / Fikir | Strang (dk) | |--------|----------------|-------------| | **İstatistik başlıyor** | olasılık = derin öğrenmenin parçası | 0m28 | | **Beklenen değer** | $E[x] = \sum P_{i}x_{i} = m$ | 0m28 | | **Varyans** | $\sigma^{2} = E[(x-m)^{2}] = E[x^{2}] - m^{2}$ | 7m56 | | **Markov eşitsizliği** | $P(x \geq a) \leq m/a$ ($x \geq 0$) | 8m46 | | **Chebyshev eşitsizliği** | $P(\lvert x-m \rvert \geq a) \leq \sigma^{2}/a^{2}$ | 21m37 | | **Chebyshev kanıtı** | Markov'u $y = (x-m)^{2}$'ye uygula | 25m05 | | **Ortak olasılık / tensör** | bağımsız vs bağımlı; 3 deney → 2×2×2 tensör | 37m56 | | **Covariance matrisi** | $V = \sum P_{ij}\,(\text{sapma})(\text{sapma})^{\top}$; simetrik PYT | 42m37 | | **Bağımsız → köşegen** | $\sigma_{xy} = 0 \Rightarrow V$ köşegen | 52m10 | ## ML Bağlantıları Özeti {#sec-ml-baglantilar-d20} - **Risk minimizasyonu:** beklenen kayıp $E[\text{loss}]$ minimize etmek = istatistiksel öğrenme; SGD (Ders 25) bunu mini-batch örneklem ortalamasıyla tahmin eder. - **Konsantrasyon eşitsizlikleri:** Markov/Chebyshev → genelleme sınırları, PAC öğrenme; "örneklem ortalaması gerçek ortalamaya ne kadar yakın?" (LLN'in niceliksel hâli). - **Covariance / PCA:** veri matrisi A → $(1/n)A^{\top}A$ covariance; özvektörleri ana bileşenler (Ders 7), özdeğerleri varyanslar; Gauss, Mahalanobis, LDA. - **Tensör:** derin öğrenmenin temel veri yapısı (batch×kanal×H×W); çok-yollu dizi ilk kez burada. - **Batch normalization:** $E[x^{2}] - m^{2}$ formülü running statistics ile tek geçişte ortalama/varyans. - **Çoklu-doğrusallık:** tekil (yarı-tanımlı) covariance → kararsız regresyon (Ders 10 kondisyon); PCA sıfıra yakın varyansı atar. - **Geriye köprü:** Stat 110 §4.B (mean/variance/Markov/Chebyshev/covariance), Ders 5 (pozitif yarı-tanımlı), Ders 7 (PCA), Ders 14 (Kalman covariance), Ders 19 (covariance önizleme). ```{python} #| label: fig-lln-yakinsama #| fig-cap: "Chebyshev/LLN niceliksel: $n$ örnekli örneklem ortalamasının std'si teorik $\\sigma/\\sqrt{n}$ eğrisini birebir takip eder (MC/teorik oranları 0.97-1.04 bandında). $n$ 10 kat artınca std $\\sqrt{10}\\approx 3.16$ kat düşer — std(10)/std(1000) = 9.77 ≈ 10. Bu, SGD'nin neden çalıştığının istatistiksel temelidir: daha çok örnek → daha az gürültü." #| fig-width: 7 #| fig-height: 4.2 #| code-fold: true ns = [10, 100, 1000, 10000] stds = sample_mean_concentration(DIE_XS, DIE_PS, ns, reps=2000) sigma = np.sqrt(35.0 / 12.0) fig, ax = plt.subplots(figsize=(7, 4.2)) ax.loglog(ns, stds, marker="o", ms=9, color=COL_PRIMARY, lw=2, label="MC std(örneklem ort.) — 2000 tekrar") ax.loglog(ns, sigma / np.sqrt(np.array(ns, dtype=float)), color=COL_VEC3, ls="--", lw=2, label="teorik sigma/karekök(n)") ax.legend() apply_style(ax) ax.set_xlabel("n (log)") ax.set_ylabel("std (log)") ax.set_title("Chebyshev/LLN niceliksel: örneklem ortalaması sapması sigma/karekök(n) gibi düşer " "(MC/teorik oranları 0.97-1.04) — SGD'nin istatistiksel temeli", fontsize=9) plt.show() ``` LLN'in niceliksel yüzü (@fig-lln-yakinsama): örneklem ortalamasının standart sapması teorik $\sigma/\sqrt{n}$ eğrisini birebir takip eder (MC/teorik oranları 0.97–1.04 bandında); n 100 kat artınca std 10 kat düşer (std(10)/std(1000) = 9.77 ≈ 10). Bu, Chebyshev'in "örneklem ortalaması gerçek ortalamaya yakınsar" vaadinin sayısal kanıtı ve SGD'nin neden çalıştığının istatistiksel temeli. ::: {.callout-important} ## İstatistik, lineer cebirin üzerine kurulur > *"...part of deep learning as we get there."* — Strang, 0:28 Covariance bir matristir, özdeğerleri varyans yönlerini verir; beklenen değer ve varyans olasılığın iki temel ölçüsü, Markov ve Chebyshev sapmaları sınırlayan iki büyük eşitsizliktir. Bu blok lineer cebir ile optimizasyon ve derin öğrenme arasındaki köprü: covariance PCA'ya, konsantrasyon eşitsizlikleri genelleme sınırlarına, tensör ise derin öğrenmenin temel veri yapısına açılır. :::