flowchart LR
F["f(x)"] -->|"türev"| D1["f'(x)<br/>eğim, hız<br/>= gradient"]
D1 -->|"türev"| D2["f''(x)<br/>eğrilik, ivme<br/>= Hessian"]
D2 -->|"türev"| D3["f'''(x)<br/>jerk"]
D2 -.->|"ML"| ML["Newton's method,<br/>L-BFGS, Hessian<br/>(eğrilik bilgisi)"]
style D2 fill:#fff3e0,stroke:#f57c00,stroke-width:2px
style ML fill:#fce4ec,stroke:#c2185b
11 Yüksek Mertebeden Türevler
Eğrilik, ivme ve jerk — Taylor’a kapı
- Grant’ın videosu: YouTube — Chapter 10: Higher order derivatives (≈5 dk)
- Kaynak: 3Blue1Brown — Essence of Calculus
- Okuma süresi: ≈12 dk
11.1 Bu Derste Ne Var?
Bu kısa bölüm, Ders 11’deki Taylor serilerine geçmeden önce bir dipnot: yüksek mertebeden türevler, özellikle ikinci türev. İkinci türev, türevin türevidir — yani eğimin nasıl değiştiğini söyler. Geometrik karşılığı eğrilik, fiziksel karşılığı ivmedir.
Üç ana fikir:
- İkinci türev = türevin türevi; eğimin değişim oranı. Notasyon: \(f''(x) = d^2f/dx^2\).
- Geometrik: eğrilik. Yukarı bükey (⌣) → \(f'' > 0\); aşağı bükey (⌢) → \(f'' < 0\).
- Fiziksel: ivme (mesafe → hız → ivme). Üçüncü türev = jerk.
“the most visceral understanding of the second derivative is that it represents acceleration.” — Grant, 4:01
- İkinci türev → Hessian. Çok değişkenli halde ikinci türevler bir matris (Hessian) oluşturur; loss landscape’in eğriliğini kodlar. Newton’s method ve ikinci-derece optimizer’lar (L-BFGS) bunu kullanır.
- Eğrilik işareti → konvekslik. \(f'' > 0\) her yerde ise fonksiyon konveks (tek minimum); ikinci türev testi kritik noktanın min mi (\(f''>0\)) max mı (\(f''<0\)) olduğunu söyler.
- Düz vs keskin minimum → düşük eğrilikli (flat) minimumlar daha iyi genelleme yapar; sharpness-aware minimization (SAM) tam bunu hedefler.
- İvme analojisi → SGD momentum: gradyan “kuvvet”, güncelleme “hız”; momentum, ikinci-derece dinamik bir sezgi katar.
11.2 İkinci Türev: Türevin Türevi
Bir \(f(x)\) fonksiyonunda türev, grafiğin bir nokta üzerindeki eğimidir: dik eğim büyük türev, aşağı eğim negatif türev. İkinci türev ise türevin türevidir — yani o eğimin nasıl değiştiğini söyler.
Bunu bir bakışta görmenin yolu, \(f(x)\) grafiğinin nasıl büküldüğüne bakmaktır. Grafiğin yukarı büküldüğü noktalarda eğim artıyordur, yani ikinci türev pozitiftir. Aşağı büküldüğü noktalarda eğim azalıyordur, ikinci türev negatiftir.
Gradient descent yalnızca birinci türevi (eğim) kullanır; nereye gideceğini bilir ama “zemin ne kadar bükülüyor” bilmez. İkinci türev (Hessian) bu eksik bilgiyi verir: Newton’s method, adımı eğriliğe göre ölçekler ve çok daha hızlı yakınsayabilir.
11.3 Eğrilik: Yukarı/Aşağı Bükey
Eğriliğin şiddeti de önemli. Bir noktada eğim hızla artıyorsa, ikinci türev çok pozitiftir. Hiç eğrilik olmayan (doğrusal) noktalarda ise ikinci türev tam 0’dır.
İkinci türevin işareti, grafiğin yerel şeklini anlatır: pozitif ise vadi (⌣), negatif ise tepe (⌢). Bu, bir kritik noktanın (eğimin 0 olduğu yer) minimum mu maksimum mu olduğunu ayırt etmenin anahtarıdır.
Eğrilik, optimizasyonun kalbidir. Bir kaybın minimumunda gradyan 0’dır; ama orada ikinci türeve bakarak minimum (\(f'' > 0\)), maksimum (\(f'' < 0\)) ya da eyer noktası (karışık) ayırt edilir. Yüksek boyutta bu, Hessian’ın özdeğerlerinin işaretlerine bakmaktır — derin ağların kayıp yüzeylerinin neden eyer noktalarıyla dolu olduğunu da bu açıklar.
11.4 Notasyon: \(d^2f/dx^2\)
İkinci türevi şöyle yazarız:
\[ f''(x) = \frac{d}{dx}\left(\frac{df}{dx}\right) = \frac{d^2 f}{dx^2} \]
Bir girdiden başla ve sağa, her biri \(dx\) boyutunda iki küçük adım at. İlk adım fonksiyonda bir \(df_1\) değişimine, ikinci adım benzer ama biraz farklı bir \(df_2\) değişimine yol açar. Bu iki değişim arasındaki fark \(ddf\)’tir. Bunu çok küçük düşün; tipik olarak \((dx)^2\) ile orantılıdır:
\[ f''(x) \approx \frac{ddf}{(dx)^2} = \frac{df_2 - df_1}{(dx)^2} \]
\((dx)^2\) ile orantılı olan \(ddf\), Ders 2-3’te attığımız terimdi. İkinci türev tam olarak o atılan terimi yakalar — bu yüzden bir fonksiyonu birinci derece (teğet doğru) yerine ikinci derece (parabol) ile yaklaştırmak istediğinde ikinci türev devreye girer.
11.5 İvme ve Jerk
İkinci türevin en somut anlamı ivmedir. Bir doğru üzerindeki harekette:
\[ s(t) \;\to\; v(t) = \frac{ds}{dt} \;\to\; a(t) = \frac{d^2 s}{dt^2} \]
İkinci türev pozitifse hızlanma vardır; negatifse yavaşlama. Üçüncü türev — şaka değil — jerk (sarsıntı) diye adlandırılır.
“The third derivative, and this is not a joke, is called jerk.” — Grant, 4:54
Mesafe → hız → ivme zinciri, SGD momentumunun sezgisidir: gradyan bir “kuvvet” gibi davranır, parametre güncellemesi bir “hız” biriktirir, böylece optimizasyon düz bölgelerde ivmelenir ve gürültüyü yumuşatır. Adam gibi optimizer’lar gradyanın birinci momentini (hız) ve ikinci momentini (ölçek) ayrı ayrı izleyerek bu fiziksel analojiyi daha da ileri taşır.
11.6 Bu Dersin Özeti
- İkinci türev = türevin türevi; eğimin değişim oranıdır. Notasyon: \(f''(x) = d^2f/dx^2\).
- Geometrik anlam eğriliktir: yukarı bükey (⌣) → \(f'' > 0\); aşağı bükey (⌢) → \(f'' < 0\); eğrilik yoksa \(f'' = 0\).
- Eğriliğin şiddeti = ikinci türevin büyüklüğü (hızlı bükülme → büyük \(f''\)).
- Notasyon mantığı: iki \(dx\) adımı al, \(ddf = df_2 - df_1 \propto (dx)^2\); \(f'' = ddf/(dx)^2\).
- Fiziksel anlam ivmedir: \(a(t) = d^2s/dt^2\). Üçüncü türev = jerk.
- Yüksek mertebeden türevler, fonksiyonları yaklaştırmanın (Taylor serisi, Ders 11) anahtarıdır.
İkinci türev, türevin türevidir — eğimin nasıl değiştiğini, yani grafiğin eğriliğini (ve hareketin ivmesini) ölçer; \(d^2f/dx^2\) notasyonundaki “kareler”, birinci türevde atılan \((dx)^2\) terimini yakalamasından gelir ve bu, fonksiyonları ikinci dereceden yaklaştırmanın temelidir.
11.7 Kontrol Soruları
Cevap: \(f'(x) = 3x^2\), \(f''(x) = 6x\). \(x > 0\)’da \(f'' > 0\) (yukarı bükey), \(x < 0\)’da \(f'' < 0\) (aşağı bükey), \(x = 0\)’da \(f'' = 0\) (büküm noktası — eğrilik yön değiştirir). Bu yüzden \(x^3\) grafiği S şeklindedir.
Cevap: \(f'' > 0\) ise yerel minimum (vadi); \(f'' < 0\) ise yerel maksimum (tepe); \(f'' = 0\) ise test belirsizdir. Buna ikinci türev testi denir — gradyan sıfırken minimum/maksimum ayrımının anahtarı.
Cevap: Hız \(v = ds/dt = 2t\) (zamanla doğrusal artar). İvme \(a = d^2s/dt^2 = 2\) (sabit, pozitif). Yani araba sabit ivmeyle sürekli hızlanır — serbest düşüş gibi.
Cevap: Tüm özdeğerler pozitif (gradyan da 0) ise nokta yerel minimumdur — her yönde yukarı bükey. Eyer noktası, bazı özdeğerlerin pozitif bazılarının negatif olduğu yerdir: bir yönde minimum, başka bir yönde maksimum gibi. Gradyan 0’dır ama minimum değildir. Yüksek boyutlu derin ağlarda kritik noktaların çoğu minimumdan ziyade eyer noktasıdır.
11.8 Egzersizler
Egzersiz 1. \(f(x) = x^4\)’ün birinci, ikinci ve üçüncü türevlerini bul (\(4x^3\), \(12x^2\), \(24x\)).
Egzersiz 2. \(f(x) = \sin(x)\)’in ikinci türevini bul. (İpucu: \(d(\sin)/dx = \cos\), \(d(\cos)/dx = -\sin \to f'' = -\sin x\). \(\sin\), iki türevde kendi negatifine döner.)
Egzersiz 3. Bir grafiğin büküm noktası, eğriliğin yön değiştirdiği yerdir: \(f'' = 0\) ve işaret değiştirir. \(f(x) = x^3\) için büküm noktasını bul.
Egzersiz 4. (Python — sayısal doğrulama) \(f(x) = x^3\) için ikinci türevi merkezi-fark formülüyle \([f(x+h) - 2f(x) + f(x-h)]/h^2\) hesapla.
Egzersiz 5. (Sonraki dersin habercisi) Bir fonksiyonu bir nokta civarında polinomla yaklaştır: birinci türev sana en iyi teğet doğruyu, ikinci türev en iyi parabolü verir. Ders 11, Taylor serilerini anlatacak.
11.9 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Grant’ta |
|---|---|---|
| İkinci türev | Türevin türevi; eğimin değişim oranı | 0m57 |
| \(d^2f/dx^2\) notasyonu | İki \(dx\) adımı; \(ddf/(dx)^2\) | 2m19 |
| Yukarı bükey → \(f'' > 0\) | Eğim artıyor (vadi ⌣) | 1m08 |
| Aşağı bükey → \(f'' < 0\) | Eğim azalıyor (tepe ⌢) | 1m17 |
| \(f'' = 0\) | Eğrilik yok; doğrusal nokta veya büküm | 1m46 |
| İvme = \(d^2s/dt^2\) | Hızın değişim oranı | 4m01 |
| İkinci türev testi | Kritik noktada \(f'' > 0\) min, \(f'' < 0\) max | 1m26 |
| Jerk | Üçüncü türev; ivmenin değişimi | 4m54 |
11.10 ML Bağlantıları Özeti
- İkinci türev → Hessian → loss landscape’in eğriliği; ikinci-derece bilgi.
- Eğrilik işareti → konvekslik → ikinci türev testi (min / max / eyer ayrımı).
- Newton’s method / L-BFGS → ikinci-derece optimizer; adımı eğriliğe göre ölçekler.
- Düz vs keskin minimum → düşük eğrilikli (flat) minimumlar daha iyi genelleme; SAM.
- İvme → SGD momentum → gradyan “kuvvet”, güncelleme “hız”; Adam birinci+ikinci moment.
- \((dx)^2\) terimi → ikinci dereceden (parabol) yaklaşım; Taylor’ın ikinci terimi.
- Eyer noktaları → yüksek boyutlu loss yüzeylerinin baskın kritik noktaları (Hessian özdeğer işaretleri).
İkinci türev, eğimin nasıl değiştiğidir — geometrik olarak eğrilik, fiziksel olarak ivme. İşareti bir kritik noktanın minimum mu maksimum mu olduğunu söyler (optimizasyonun kalbi), büyüklüğü ise bir fonksiyonu ne kadar iyi bir parabolle yaklaştırabileceğini. Bu da bizi doğrudan Taylor serilerine götürür.