flowchart LR
A["Grafik sezgisi:<br/>türev = eğim<br/>(tek değişken)"] --> B["Yetersiz:<br/>vektör→vektör grafiği yok"]
B --> C["Dönüşümsel görüş:<br/>türev = yerel germe/sıkıştırma"]
C --> D["⭐ Jacobian<br/>(çok değişkenli türev)"]
C --> E["Sabit nokta<br/>x = f(x)"]
E --> F["Kararlılık\: |f'| < 1<br/>contraction mapping"]
F --> G["RNN spektral norm,<br/>DEQ, value iteration"]
style C fill:#fff3e0,stroke:#f57c00,stroke-width:2px
style D fill:#fce4ec,stroke:#c2185b,stroke-width:2px
style G fill:#e3f2fd,stroke:#1976d2
13 Calculus’ta Sana Öğretmedikleri
Dönüşümsel görüş — sayı doğrusundan sayı doğrusuna germe/sıkıştırma
- Grant’ın videosu: YouTube — Chapter 12: What they won’t teach you in calculus (≈14 dk)
- Kaynak: 3Blue1Brown — Essence of Calculus
- Okuma süresi: ≈22 dk
13.1 Bu Derste Ne Var?
Serinin son bölümü. Çoğu calculus dersinin atladığı ama öğrenmeyi hızlandıran bir bakış: dönüşümsel görüş. Bu seride tüm sezgilerimiz grafiklere dayandı (türev = eğim, integral = alan). Ama girdi-çıktısı yalnızca sayı olmayan fonksiyonlara geçince grafik çizemezsin; grafik-temelli sezgi, çok değişkenli calculus ve kompleks analiz gibi ileri konulara gereksiz bir engel olur.
Üç ana fikir:
- Dönüşümsel görüş: türev = girdiyi bir nokta civarında ne kadar gerip/sıkıştırdığı. (\(x^2\)’nin 1’deki türevi 2 = yerel olarak \(\times 2\) germe.)
- Sabit nokta: sonsuz kesir, \(f(x) = 1 + 1/x\)’in sabit noktasıdır; iki çözüm var (\(\varphi \approx 1{,}618\) ve \(-1/\varphi \approx -0{,}618\)).
- Kararlılık: \(|f'| < 1\) ise sabit nokta çekici (stable), \(|f'| > 1\) ise itici (unstable).
“the stability of a fixed point is determined by whether or not the magnitude of its derivative is bigger or smaller than 1.” — Grant, 12:23
- Germe/sıkışma faktörü → Jacobian determinantı. Çok değişkenlide türev, yerel hacmi ne kadar gerip sıkıştırdığını (\(\det J\)) söyler; normalizing flows’ta log-det-Jacobian tam budur.
- Negatif türev → yön çevirme (Jacobian determinantının işareti); sıfır türev → çöküş (tekil/singular Jacobian, bilgi kaybı).
- Kararlılık \(|f'| < 1\) → contraction mapping (Banach sabit nokta teoremi): DEQ yakınsaması, power iteration, RL’de value iteration.
- \(|\text{türev}|\) ve kararlılık → RNN’de gradyan patlama/sönme: tekrarlı çarpımın Jacobian spektral normu \(> 1\) ise patlar, \(< 1\) ise söner; spectral normalization ve Lipschitz kısıtları tam bunu kontrol eder.
13.2 Grafik Sezgisinin Sınırı: Neden Yeni Bir Bakış?
Bu ilk yılın görsel sezgilerinin neredeyse tamamı grafiklere dayanır: türev bir grafiğin eğimi, integral o grafiğin altındaki alan. Ama calculus’u, girdi ve çıktısı yalnızca sayı olan fonksiyonların ötesine genelledikçe, analiz ettiğin fonksiyonu her zaman grafikleyemezsin.
Grant’ın paylaştığı alternatif: türevi, daha sorunsuz genelleşen bir biçimde düşünmek. Önemli nokta: “türev = eğim”i türevin tanımı sanma. Türev, daha temelde, fonksiyonun girdideki küçük dürtmelere ne kadar duyarlı olduğudur.
“Türev = eğim”e fazla bağlanmanın bedeli, ML matematiğinde net görülür: orada türev neredeyse hiç “eğim” değildir. Bir sinir ağı vektörleri vektörlere eşler; türevi bir Jacobian matrisidir (yerel lineer dönüşüm). “Duyarlılık” ve “yerel dönüşüm” bakışı, tek-değişkenli eğimden çok daha sorunsuz genelleşir.
13.3 Dönüşümsel Görüş: Türev = Yerel Germe/Sıkışma
Alternatif görselin temel fikri: fonksiyonu, girdi doğrusundaki tüm noktaları başka bir sayı doğrusundaki karşılık gelen çıktılara eşleyen bir harita olarak düşün. Türev sana, girdi uzayının çeşitli bölgelerde ne kadar gerildiğini ya da sıkıştığını söyler.
Örnek: \(f(x) = x^2\). Bu fonksiyon 1’i 1’e, 2’yi 4’e, 3’ü 9’a eşler. Girdi 1 etrafındaki küçük bir nokta kümesine yakınlaşıp nereye düştüklerine bakarsan, yaklaşık 2 katı gerildiklerini görürsün.
\[ f(x) = x^2: \qquad f'(1) = 2, \quad f'(3) = 6, \quad f'\!\left(\tfrac{1}{4}\right) = \tfrac{1}{2} \]
Girdi 3 etrafında noktalar 6 katı gerilir; girdi \(1/4\) etrafında ise \(1/2\) katı büzülür.
“Yerel germe/sıkışma faktörü” tek-değişkenlide bir sayı, çok değişkenlide bir matristir — Jacobian. Ve bu faktörün büyüklüğü (Jacobian’ın determinantı), bir bölgenin hacminin ne kadar gerildiğini söyler. Normalizing flows tam bunu kullanır: veriyi tersine çevrilebilir bir dönüşümle başka bir uzaya taşırken, olasılık yoğunluğunun nasıl değiştiğini log-det-Jacobian ile hesaplar.
13.4 Özel Durumlar: Sıfır, Negatif, Çöküş
Girdi 0’da: \(x^2\) için 0 etrafına 10x, 100x, 1000x yakınlaştıkça, küçük bir komşuluğun giderek tek bir noktaya (0’a) çöktüğünü görürsün. Türevin 0 olması tam budur — yerel davranış, tüm sayı doğrusunu 0 ile çarpmaya benzer.
\[ f'(0) = 2 \cdot 0 = 0 \]
Negatif girdilerde: girdi \(-2\) etrafındaki noktalar yalnızca gerilmez, aynı zamanda ters çevrilir.
\[ f'(-2) = 2 \cdot (-2) = -4 \]
Negatif türev = yön çevirme, çok değişkenlide Jacobian determinantının işaretine karşılık gelir. Sıfır türev = çöküş ise tekil (singular) Jacobian: dönüşüm bir boyutu ezer, bilgi geri döndürülemez biçimde kaybolur. Bu, otomatik kodlayıcılarda dar boğazın ve boyut indirgemenin neden bilgi kaybettiğinin geometrik nedenidir.
13.5 Sonsuz Kesir Bulmacası: İki Sabit Nokta
Sonsuz kesir \(1 + \cfrac{1}{1 + \cfrac{1}{1 + \cfrac{1}{1 + \ldots}}}\) aslında \(f(x) = 1 + 1/x\) fonksiyonunun bir sabit noktasını arıyor:
\[ x = 1 + \frac{1}{x} \qquad x^2 - x - 1 = 0 \]
İki çözüm var: altın oran \(\varphi\) ve onun “küçük kardeşi” \(-1/\varphi\):
\[ \varphi = \frac{1 + \sqrt{5}}{2} \approx 1{,}618, \qquad -\frac{1}{\varphi} \approx -0{,}618 \]
Bir hesap makinesi al, herhangi bir sayıyla başla ve \(f(x) = 1 + 1/x\)’i defalarca uygula: hangi sayıyla başlarsan başla, sonunda hep \(1{,}618\)’e varırsın — küçük kardeşe çok yakın başlasan bile ondan kaçıp \(\varphi\)’ye sıçrar.
“\(x = 1 + 1/x\)’in sabit noktasını ara, ama iterasyonla bul” — bu, sabit-nokta iterasyonunun tam örneğidir. ML’de Deep Equilibrium Models (DEQ) çıktısını \(z = f(z, x)\) sabit noktası olarak tanımlar; RL’de value iteration, Bellman operatörünün sabit noktasını arar.
13.6 Sabit Noktaların Kararlılığı: \(|f'| < 1\)
Cevap, dönüşümsel türevde. \(\varphi\) etrafına yakınlaş: eşleme sırasında o bölgedeki noktalar \(\varphi\)’ye doğru büzülür, yani \(f(x) = 1 + 1/x\)’in oradaki türevinin büyüklüğü 1’den küçüktür.
\[ f(x) = 1 + \frac{1}{x}, \qquad f'(x) = -\frac{1}{x^2} \]
\[ |f'(\varphi)| \approx 0{,}38 < 1 \;(\text{stable}), \qquad \left|f'\!\left(-\tfrac{1}{\varphi}\right)\right| \approx 2{,}62 > 1 \;(\text{unstable}) \]
İşte çok yararlı bir gerçek: bir sabit noktanın kararlılığı, türevinin büyüklüğünün 1’den küçük mü büyük mü olduğuyla belirlenir. \(|f'| < 1\) ise kararlı (çekici); \(|f'| > 1\) ise kararsız (itici).
“the stability of a fixed point is determined by whether or not the magnitude of its derivative is bigger or smaller than 1.” — Grant, 12:23
\(|f'| < 1\) kararlılık koşulu, ML’in her yerindedir. Bir contraction mapping (Banach sabit nokta teoremi) tam olarak \(|f'| < 1\) olan haritadır; DEQ ve value iteration’ın yakınsamasını bu garanti eder. Tekrarlı dinamiklerde (RNN’ler) ise tekrarlı çarpımın Jacobian’ının spektral normu \(> 1\) ise gradyan patlar, \(< 1\) ise söner — bu yüzden gradient clipping, ortogonal başlatma ve spectral normalization ile bu büyüklük 1 civarında tutulur.
13.7 Neden Öğrenmeli? Sonrası İçin
Grant’ın dürüst itirafı: türevi bu “yoğunluk değişimi” olarak görmek, bütün bir fonksiyonu resmetmek söz konusu olduğunda grafiklerden daha hantal olabilir. Asıl neden, tek-değişkenli calculus anlayışına kattığı şey değil — sonrasında geleni kolaylaştırmasıdır.
Çok değişkenli calculus, kompleks analiz, diferansiyel geometri… hepsinde fonksiyonlar artık birer dönüşümdür ve türev bir yerel germe/sıkışma (Jacobian) olarak çok daha doğal oturur.
“the real reason I’d recommend you carry this perspective with you as you learn new topics … it’s for what comes after.” — Grant, 13:58
ML matematiğinin tamamı, bu son dersin bakışıyla yazılır: fonksiyonlar dönüşümlerdir, türevler Jacobian’lardır, eğitim bu dönüşümlerin yerel davranışını (gradient, eğrilik, spektral norm) kontrol etmektir. Grafik sezgisi tek-değişkenlide harikadır; ama derin öğrenmeye geçtiğinde, Grant’ın bu “atlanmış” dönüşümsel görüşü senin asıl çalışma dilin olur.
13.8 Bu Dersin Özeti
- Bu serinin grafik sezgisi (türev = eğim) güçlüdür ama sayı→sayı fonksiyonlarıyla sınırlıdır.
- Dönüşümsel görüş: fonksiyon, bir sayı doğrusunu başka bir sayı doğrusuna eşleyen dönüşümdür; türev = yerel germe/sıkışma faktörü.
- \(x^2\): girdi 1’de \(\times 2\), 3’te \(\times 6\), \(1/4\)’te \(\times 1/2\) (büzülme), 0’da çöküş (türev 0), \(-2\)’de \(\times -4\) (gerilme + ters çevirme).
- Sonsuz kesir = \(f(x) = 1 + 1/x\)’in sabit noktası; iki çözüm: \(\varphi \approx 1{,}618\) ve \(-1/\varphi \approx -0{,}618\).
- Kararlılık: \(|f'| < 1\) ise çekici (stable), \(|f'| > 1\) ise itici (unstable).
- Türev, daha temelde “girdideki küçük dürtmelere duyarlılık”tır; eğim bunun yalnızca bir görünümüdür.
- Bu bakış, türevi grafiklerin ötesine (Jacobian, çok değişkenli calculus) taşıyan esnek köprüdür.
Türev, “eğim” olmaktan daha temelde, bir fonksiyonun girdiyi yerel olarak ne kadar gerip sıkıştırdığıdır (negatifse ters çevirir, sıfırsa çökertir); bu dönüşümsel bakış, sabit noktaların kararlılığını \(|f'| < 1\) ile açıklar ve türevi grafiklerin ötesine — Jacobian’lara — taşıyan köprüdür.
13.9 Kontrol Soruları
Cevap: \(f'(x) = 3x^2\), dolayısıyla \(f'(2) = 3 \cdot 4 = 12\). Dönüşümsel anlamı: girdi 2 etrafındaki küçük bir nokta kümesi, eşlemeden sonra yaklaşık 12 katı gerilir.
Cevap: \(f'(x) = 1/2\). \(|f'| = 1/2 < 1\) olduğundan 0 kararlı (çekici). Herhangi bir tohumdan başla: \(x, x/2, x/4, x/8, \ldots \to 0\). Her adım komşuluğu yarıya büzer, bir contraction mapping.
Cevap: Negatif türev: yerel komşuluk hem gerilir/büzülür hem de ters çevrilir. Sıfır türev: komşuluk giderek tek bir noktaya çöker — bilgi yerel olarak kaybolur.
Cevap: Geri yayılım, her zaman adımında bu Jacobian’la çarpar; spektral norm \(\approx 1{,}5\) ise gradyanın büyüklüğü her adımda \(\sim 1{,}5\) kat artar, \(T\) adımda \(\sim 1{,}5^T\) olur — yani patlar. \(< 1\) olsaydı \(\sim 0{,}x^T\) ile sönerdi. Gradient clipping, ortogonal başlatma ve spectral normalization bu büyüklüğü 1 civarında tutmak içindir.
13.10 Egzersizler
Egzersiz 1. \(f(x) = 2x + 1\)’in her noktadaki germe faktörü nedir? (İpucu: \(f'\) sabit.)
Egzersiz 2. \(f(x) = \sqrt{x}\)’in \(x = 4\)’teki germe/sıkışma faktörünü bul. Bu, \(x^2\)’nin \(x = 2\)’deki germesinin tersi olmalı; neden?
Egzersiz 3. \(f(x) = \cos(x)\)’in sabit noktasını (Dottie sayısı \(\approx 0{,}739\)) bir hesap makinesinde tekrarlı \(\cos\) alarak bul. Kararlı mı?
Egzersiz 4. (Python — sabit nokta ve kararlılık) \(f(x) = 1 + 1/x\)’i farklı tohumlardan iterasyonla uygula.
Egzersiz 5. (Seri sonu) Bir an dur ve 12 bölümü topla: küçük dürtmeler (\(dx\)), yaklaşıktan kesine geçiş (limit), türev (oran/germe), integral (toplam/alan), terslik (FTC), üsteller, Taylor, dönüşümler. “Calculus’u kendim icat edebilirdim” hissini bir cümleyle yaz.
13.11 Seri Sonu: Calculus’tan Sonra
Essence of Calculus’un 12 bölümü burada tamamlanıyor. Tek bir daireyi dilimleyerek başladık (Ders 1), türevi küçük dürtmelerle kurduk (Ders 2-4), üstelleri ve \(e\)’yi anladık (Ders 5-6), limitlerle her şeyi sağlamlaştırdık (Ders 7), integral-türev tersliğini kapattık (Ders 8-9), eğriliği ve Taylor’ı ekledik (Ders 10-11) ve nihayet türevin grafiklerin ötesine geçen dönüşümsel yüzünü gördük (Ders 12).
Sırada ne var? Bu dönüşümsel bakış, doğrudan çok değişkenli calculusa açılır: gradient (her yöndeki duyarlılık), Jacobian (vektör→vektör dönüşümün yerel hâli), Hessian (eğrilik matrisi) — hepsi burada gördüğün tek-değişkenli fikirlerin doğal genellemesi. ML için bu üçü kritiktir.
13.12 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Grant’ta |
|---|---|---|
| Dönüşümsel görüş | Fonksiyon = bir sayı doğrusu → başka sayı doğrusu | 2m22 |
| Türev = germe/sıkışma faktörü | Girdinin yerel ölçek değişimi | 2m33 |
| \(x^2\) türevleri (dönüşümsel) | 1’de \(\times 2\), 3’te \(\times 6\), \(1/4\)’te \(\times 1/2\) | 2m59 |
| Sıfır türev = çöküş | Komşuluk tek noktaya ezilir | 4m13 |
| Negatif türev = ters çevirme | Gerilme + yön değişimi | 4m55 |
| Sabit nokta | \(x = f(x)\); sonsuz kesir \(\to \varphi, -1/\varphi\) | 6m05 |
| Kararlılık \(\|f'\| < 1\) | Çekici (stable) vs itici (unstable) | 12m23 |
| Sonrası için | Jacobian, çok değişkenli; esnek bakış | 13m58 |
13.13 ML Bağlantıları Özeti
- Germe/sıkışma → Jacobian determinantı → normalizing flows’ta log-det-Jacobian, değişken değiştirme.
- Negatif/sıfır türev → yönelim (det işareti) / tekil (singular) Jacobian: bilgi kaybı, bottleneck.
- Sabit nokta iterasyonu → Deep Equilibrium Models (DEQ), RL’de value iteration, power iteration.
- Kararlılık \(|f'| < 1\) → contraction mapping (Banach sabit nokta teoremi); iteratif yöntemlerin yakınsama garantisi.
- Spektral norm → RNN’de gradyan patlama/sönme; spectral normalization, Lipschitz kısıtları.
- Türev = duyarlılık (eğim değil) → Jacobian; çok değişkenli calculus ve derin öğrenmenin asıl dili.
- Tersine çevrilebilirlik → normalizing flows, invertible networks (Jacobian determinantı \(\neq 0\) şartı).
Türev, bir eğrinin eğimi olmaktan daha temelde, bir fonksiyonun girdiye duyarlılığıdır — yerel bir germe/sıkışma. Bu bakış eğimden Jacobian’a, tek değişkenden derin ağlara sorunsuz geçer. 12 bölüm boyunca gördüğün her şey — küçük dürtmeler, limit, türev, integral, terslik, Taylor — tek bir cümlede toplanır: küçük değişimlere yeterince dikkatle bakarsan, calculus’un tamamını kendin keşfedebilirsin.