11  Yüksek Mertebeden Türevler

Eğrilik, ivme ve jerk — Taylor’a kapı

NotBölüm bilgisi

11.1 Bu Derste Ne Var?

Bu kısa bölüm, Ders 11’deki Taylor serilerine geçmeden önce bir dipnot: yüksek mertebeden türevler, özellikle ikinci türev. İkinci türev, türevin türevidir — yani eğimin nasıl değiştiğini söyler. Geometrik karşılığı eğrilik, fiziksel karşılığı ivmedir.

Üç ana fikir:

  1. İkinci türev = türevin türevi; eğimin değişim oranı. Notasyon: \(f''(x) = d^2f/dx^2\).
  2. Geometrik: eğrilik. Yukarı bükey (⌣) → \(f'' > 0\); aşağı bükey (⌢) → \(f'' < 0\).
  3. Fiziksel: ivme (mesafe → hız → ivme). Üçüncü türev = jerk.
flowchart LR
    F["f(x)"] -->|"türev"| D1["f'(x)<br/>eğim, hız<br/>= gradient"]
    D1 -->|"türev"| D2["f''(x)<br/>eğrilik, ivme<br/>= Hessian"]
    D2 -->|"türev"| D3["f'''(x)<br/>jerk"]
    D2 -.->|"ML"| ML["Newton's method,<br/>L-BFGS, Hessian<br/>(eğrilik bilgisi)"]
    style D2 fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    style ML fill:#fce4ec,stroke:#c2185b
Şekil 11.1: Türev mertebeleri ve ML eşdeğerleri: gradient (1.) + Hessian (2.) + jerk (3.).

“the most visceral understanding of the second derivative is that it represents acceleration.” — Grant, 4:01

İpucuBuilder Notu — ML Köprüleri
  • İkinci türev → Hessian. Çok değişkenli halde ikinci türevler bir matris (Hessian) oluşturur; loss landscape’in eğriliğini kodlar. Newton’s method ve ikinci-derece optimizer’lar (L-BFGS) bunu kullanır.
  • Eğrilik işareti → konvekslik. \(f'' > 0\) her yerde ise fonksiyon konveks (tek minimum); ikinci türev testi kritik noktanın min mi (\(f''>0\)) max mı (\(f''<0\)) olduğunu söyler.
  • Düz vs keskin minimum → düşük eğrilikli (flat) minimumlar daha iyi genelleme yapar; sharpness-aware minimization (SAM) tam bunu hedefler.
  • İvme analojisi → SGD momentum: gradyan “kuvvet”, güncelleme “hız”; momentum, ikinci-derece dinamik bir sezgi katar.

11.2 İkinci Türev: Türevin Türevi

Bir \(f(x)\) fonksiyonunda türev, grafiğin bir nokta üzerindeki eğimidir: dik eğim büyük türev, aşağı eğim negatif türev. İkinci türev ise türevin türevidir — yani o eğimin nasıl değiştiğini söyler.

Bunu bir bakışta görmenin yolu, \(f(x)\) grafiğinin nasıl büküldüğüne bakmaktır. Grafiğin yukarı büküldüğü noktalarda eğim artıyordur, yani ikinci türev pozitiftir. Aşağı büküldüğü noktalarda eğim azalıyordur, ikinci türev negatiftir.

İpucuBuilder Notu — Newton’s Method

Gradient descent yalnızca birinci türevi (eğim) kullanır; nereye gideceğini bilir ama “zemin ne kadar bükülüyor” bilmez. İkinci türev (Hessian) bu eksik bilgiyi verir: Newton’s method, adımı eğriliğe göre ölçekler ve çok daha hızlı yakınsayabilir.

11.3 Eğrilik: Yukarı/Aşağı Bükey

Eğriliğin şiddeti de önemli. Bir noktada eğim hızla artıyorsa, ikinci türev çok pozitiftir. Hiç eğrilik olmayan (doğrusal) noktalarda ise ikinci türev tam 0’dır.

İkinci türevin işareti, grafiğin yerel şeklini anlatır: pozitif ise vadi (⌣), negatif ise tepe (⌢). Bu, bir kritik noktanın (eğimin 0 olduğu yer) minimum mu maksimum mu olduğunu ayırt etmenin anahtarıdır.

İpucuBuilder Notu — Eyer Noktaları

Eğrilik, optimizasyonun kalbidir. Bir kaybın minimumunda gradyan 0’dır; ama orada ikinci türeve bakarak minimum (\(f'' > 0\)), maksimum (\(f'' < 0\)) ya da eyer noktası (karışık) ayırt edilir. Yüksek boyutta bu, Hessian’ın özdeğerlerinin işaretlerine bakmaktır — derin ağların kayıp yüzeylerinin neden eyer noktalarıyla dolu olduğunu da bu açıklar.

11.4 Notasyon: \(d^2f/dx^2\)

İkinci türevi şöyle yazarız:

\[ f''(x) = \frac{d}{dx}\left(\frac{df}{dx}\right) = \frac{d^2 f}{dx^2} \]

Bir girdiden başla ve sağa, her biri \(dx\) boyutunda iki küçük adım at. İlk adım fonksiyonda bir \(df_1\) değişimine, ikinci adım benzer ama biraz farklı bir \(df_2\) değişimine yol açar. Bu iki değişim arasındaki fark \(ddf\)’tir. Bunu çok küçük düşün; tipik olarak \((dx)^2\) ile orantılıdır:

\[ f''(x) \approx \frac{ddf}{(dx)^2} = \frac{df_2 - df_1}{(dx)^2} \]

İpucuBuilder Notu — Taylor’ın İkinci Terimi

\((dx)^2\) ile orantılı olan \(ddf\), Ders 2-3’te attığımız terimdi. İkinci türev tam olarak o atılan terimi yakalar — bu yüzden bir fonksiyonu birinci derece (teğet doğru) yerine ikinci derece (parabol) ile yaklaştırmak istediğinde ikinci türev devreye girer.

11.5 İvme ve Jerk

İkinci türevin en somut anlamı ivmedir. Bir doğru üzerindeki harekette:

\[ s(t) \;\to\; v(t) = \frac{ds}{dt} \;\to\; a(t) = \frac{d^2 s}{dt^2} \]

İkinci türev pozitifse hızlanma vardır; negatifse yavaşlama. Üçüncü türev — şaka değil — jerk (sarsıntı) diye adlandırılır.

“The third derivative, and this is not a joke, is called jerk.” — Grant, 4:54

İpucuBuilder Notu — SGD Momentum

Mesafe → hız → ivme zinciri, SGD momentumunun sezgisidir: gradyan bir “kuvvet” gibi davranır, parametre güncellemesi bir “hız” biriktirir, böylece optimizasyon düz bölgelerde ivmelenir ve gürültüyü yumuşatır. Adam gibi optimizer’lar gradyanın birinci momentini (hız) ve ikinci momentini (ölçek) ayrı ayrı izleyerek bu fiziksel analojiyi daha da ileri taşır.

11.6 Bu Dersin Özeti

  1. İkinci türev = türevin türevi; eğimin değişim oranıdır. Notasyon: \(f''(x) = d^2f/dx^2\).
  2. Geometrik anlam eğriliktir: yukarı bükey (⌣) → \(f'' > 0\); aşağı bükey (⌢) → \(f'' < 0\); eğrilik yoksa \(f'' = 0\).
  3. Eğriliğin şiddeti = ikinci türevin büyüklüğü (hızlı bükülme → büyük \(f''\)).
  4. Notasyon mantığı: iki \(dx\) adımı al, \(ddf = df_2 - df_1 \propto (dx)^2\); \(f'' = ddf/(dx)^2\).
  5. Fiziksel anlam ivmedir: \(a(t) = d^2s/dt^2\). Üçüncü türev = jerk.
  6. Yüksek mertebeden türevler, fonksiyonları yaklaştırmanın (Taylor serisi, Ders 11) anahtarıdır.
ÖnemliTek bir cümle

İkinci türev, türevin türevidir — eğimin nasıl değiştiğini, yani grafiğin eğriliğini (ve hareketin ivmesini) ölçer; \(d^2f/dx^2\) notasyonundaki “kareler”, birinci türevde atılan \((dx)^2\) terimini yakalamasından gelir ve bu, fonksiyonları ikinci dereceden yaklaştırmanın temelidir.

11.7 Kontrol Soruları

Cevap: \(f'(x) = 3x^2\), \(f''(x) = 6x\). \(x > 0\)’da \(f'' > 0\) (yukarı bükey), \(x < 0\)’da \(f'' < 0\) (aşağı bükey), \(x = 0\)’da \(f'' = 0\) (büküm noktası — eğrilik yön değiştirir). Bu yüzden \(x^3\) grafiği S şeklindedir.

Cevap: \(f'' > 0\) ise yerel minimum (vadi); \(f'' < 0\) ise yerel maksimum (tepe); \(f'' = 0\) ise test belirsizdir. Buna ikinci türev testi denir — gradyan sıfırken minimum/maksimum ayrımının anahtarı.

Cevap: Hız \(v = ds/dt = 2t\) (zamanla doğrusal artar). İvme \(a = d^2s/dt^2 = 2\) (sabit, pozitif). Yani araba sabit ivmeyle sürekli hızlanır — serbest düşüş gibi.

Cevap: Tüm özdeğerler pozitif (gradyan da 0) ise nokta yerel minimumdur — her yönde yukarı bükey. Eyer noktası, bazı özdeğerlerin pozitif bazılarının negatif olduğu yerdir: bir yönde minimum, başka bir yönde maksimum gibi. Gradyan 0’dır ama minimum değildir. Yüksek boyutlu derin ağlarda kritik noktaların çoğu minimumdan ziyade eyer noktasıdır.

11.8 Egzersizler

Egzersiz 1. \(f(x) = x^4\)’ün birinci, ikinci ve üçüncü türevlerini bul (\(4x^3\), \(12x^2\), \(24x\)).

Egzersiz 2. \(f(x) = \sin(x)\)’in ikinci türevini bul. (İpucu: \(d(\sin)/dx = \cos\), \(d(\cos)/dx = -\sin \to f'' = -\sin x\). \(\sin\), iki türevde kendi negatifine döner.)

Egzersiz 3. Bir grafiğin büküm noktası, eğriliğin yön değiştirdiği yerdir: \(f'' = 0\) ve işaret değiştirir. \(f(x) = x^3\) için büküm noktasını bul.

Egzersiz 4. (Python — sayısal doğrulama) \(f(x) = x^3\) için ikinci türevi merkezi-fark formülüyle \([f(x+h) - 2f(x) + f(x-h)]/h^2\) hesapla.

Egzersiz 5. (Sonraki dersin habercisi) Bir fonksiyonu bir nokta civarında polinomla yaklaştır: birinci türev sana en iyi teğet doğruyu, ikinci türev en iyi parabolü verir. Ders 11, Taylor serilerini anlatacak.

11.9 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Grant’ta
İkinci türev Türevin türevi; eğimin değişim oranı 0m57
\(d^2f/dx^2\) notasyonu İki \(dx\) adımı; \(ddf/(dx)^2\) 2m19
Yukarı bükey → \(f'' > 0\) Eğim artıyor (vadi ⌣) 1m08
Aşağı bükey → \(f'' < 0\) Eğim azalıyor (tepe ⌢) 1m17
\(f'' = 0\) Eğrilik yok; doğrusal nokta veya büküm 1m46
İvme = \(d^2s/dt^2\) Hızın değişim oranı 4m01
İkinci türev testi Kritik noktada \(f'' > 0\) min, \(f'' < 0\) max 1m26
Jerk Üçüncü türev; ivmenin değişimi 4m54

11.10 ML Bağlantıları Özeti

İpucu7 köprü
  1. İkinci türev → Hessian → loss landscape’in eğriliği; ikinci-derece bilgi.
  2. Eğrilik işareti → konvekslik → ikinci türev testi (min / max / eyer ayrımı).
  3. Newton’s method / L-BFGS → ikinci-derece optimizer; adımı eğriliğe göre ölçekler.
  4. Düz vs keskin minimum → düşük eğrilikli (flat) minimumlar daha iyi genelleme; SAM.
  5. İvme → SGD momentum → gradyan “kuvvet”, güncelleme “hız”; Adam birinci+ikinci moment.
  6. \((dx)^2\) terimi → ikinci dereceden (parabol) yaklaşım; Taylor’ın ikinci terimi.
  7. Eyer noktaları → yüksek boyutlu loss yüzeylerinin baskın kritik noktaları (Hessian özdeğer işaretleri).
ÖnemliTek bir şey alıp gideceksen

İkinci türev, eğimin nasıl değiştiğidir — geometrik olarak eğrilik, fiziksel olarak ivme. İşareti bir kritik noktanın minimum mu maksimum mu olduğunu söyler (optimizasyonun kalbi), büyüklüğü ise bir fonksiyonu ne kadar iyi bir parabolle yaklaştırabileceğini. Bu da bizi doğrudan Taylor serilerine götürür.