3 Türevin Paradoksu

Anlık değişim oranı, dt → 0 ve teğet doğrunun eğimi

Bölüm bilgisi

Grant’ın videosu: YouTube — Chapter 2: The paradox of the derivative (≈17 dk)
Kaynak: 3Blue1Brown — Essence of Calculus
Okuma süresi: ≈22 dk

3.1 Bu Derste Ne Var?

Ders 1’de calculus’un üç fikrine — integral, türev, terslik — yukarıdan baktık. Bu derste türevi yakından tanımlıyoruz. Ama bir tuzak var: türev genelde “anlık değişim oranı” diye tanımlanır — oysa Grant’a göre bu ifade bir oksimorondur. Değişim iki nokta arasında olur; tek bir ana kilitlenince değişime yer kalmaz. Calculus’un kurucularının zekası, bu paradoksu $dt$’yi sıfıra yaklaştırarak (ama sıfır yapmadan) zarifçe atlatmakta.

Üç ana fikir:

Türev = $ds/dt$ oranının, $dt \to 0$ iken yaklaştığı değer. Belirli bir $dt$ için değil, limitinde.
Geometrik anlam: bir noktadaki teğet doğrunun eğimi.
$d(t^3)/dt = 3t^2$ — ve “$dt$’li terimleri yok say” hilesi, calculus’u kullanışlı yapan şeydir.

flowchart LR
    A["'Anlık değişim oranı'<br/>(oksimoron)"] --> B["İki yakın nokta:<br/>ds/dt fark oranı"]
    B --> C["dt → 0 limit"]
    C --> D["Teğet doğrunun eğimi"]
    D --> E["d(t³)/dt = 3t²<br/>(dt'li terimler atılır)"]
    E --> F["En iyi sabit yaklaşım<br/>(anlık değil)"]

    style A fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    style C fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    style F fill:#e3f2fd,stroke:#1976d2,stroke-width:2px

Şekil 3.1: Paradoksun çözümünün yol haritası: oksimorondan limite, limitten teğet eğimine.

“it’s common for people to say that the derivative measures an instantaneous rate of change, but … that phrase is actually an oxymoron.” — Grant, 0:35

Builder Notu — ML Köprüleri

Türev = fark oranının limiti → sayısal türev ve gradient checking: backprop gradyanını, $[f(w+\varepsilon) - f(w)]/\varepsilon$ sonlu farkıyla doğrularsın.
Teğet = en iyi yerel doğrusal yaklaşım → birinci-derece Taylor; gradient, bir noktada fonksiyonun en iyi lineer modelidir.
“$dt^2$ terimini yok say” hilesi → forward-mode autodiff’in dual sayıları ($a + b\varepsilon$, $\varepsilon^2 = 0$): yüksek dereceli terimleri tam olarak düşürür. Türevin cebirsel mekaniği birebir budur.
“Anlık değil, en iyi sabit yaklaşım” → pratikte hep sonlu $dt$ (Euler adımı, learning rate); sürekli türev bunun limiti.
Kuvvet kuralı $d(t^n)/dt = n \cdot t^{n-1}$ → otomatik türev kural tablosunun ilk girdisi.

3.2 Hedef ve Paradoks: “Anlık Değişim Oranı” Bir Oksimoron

Amaç basit: türevin ne olduğunu açıklamak. Ama konu incelikli ve dikkatsiz olursan paradokslarla dolu. Bu yüzden ikincil hedef, bu paradoksları görmek ve onlardan nasıl kaçınacağını anlamak.

Sık duyarsın: “türev, anlık değişim oranını ölçer.” Oysa düşününce bu ifade kendi içinde çelişkili. Değişim, ayrı zaman noktaları arasında olan bir şeydir; kendini tek bir ana körleştirdiğinde, değişime hiç yer kalmaz. Yine de “anlık hız” demek istediğimiz gerçek bir sezgi var — ve calculus’un kurucuları bu sezgiyi, mantıklı bir matematik parçasıyla (türevle) yakaladılar.

“if that feels strange and paradoxical, good! You’re grappling with the same conflicts that the fathers of calculus did.” — Grant, 4:14

Builder Notu — Ayrıklaştırma

Bu paradoks ML’de ayrıklaştırma (discretization) olarak karşına çıkar. Bir optimizasyon adımı ya da bir ODE çözücü, “anlık” türevi asla doğrudan kullanmaz; hep sonlu bir adım ($dt$, learning rate) alır. Sürekli türev, bu sonlu adımların $dt \to 0$ limitidir. “Anlık oran” matematiksel bir idealizasyon; pratikte daima yaklaşık, sonlu bir fark hesaplarsın.

3.3 Araba Örneği: Mesafe ve Hız

Merkezî örneğimiz: bir araba A noktasından başlıyor, hızlanıyor, sonra yavaşlayıp 100 metre ötedeki B noktasında duruyor — tüm bunlar 10 saniyede oluyor.

Şekil 3.2: Aynı hareketin iki yüzü: mesafe $s(t)$ ve hız $v(t) = ds/dt$. Mesafe grafiği dikleşince hız zirveye çıkar; sığlaşınca sıfıra döner.

Bu hareketi grafikleyebiliriz: dikey eksen kat edilen mesafe, yatay eksen zaman. Her $t$ anında grafiğin yüksekliği, arabayı o ana kadar ne kadar yol gittiğini söyler. Bu mesafe fonksiyonuna $s(t)$ diyelim ($d$ harfi calculus’ta zaten başka bir işte çalışıyor).

Başlangıçta eğri sığ: araba yavaş, ilk saniyede az yol alır. Orta bölümde hızlanır, her saniye daha çok yol — grafiğin eğimi diklesir. Sona doğru yavaşlayınca eğri yine sığlaşır.

Aynı hareketin hızını (m/s) zamana karşı çizersek, bir tepe (bump) elde ederiz: başta küçük, ortada maksimum, sonda yine sıfıra iner. Bu iki eğri birbiriyle ilişkili — mesafe fonksiyonunu değiştirirsen hız fonksiyonu da değişir. Anlamak istediğimiz tam olarak bu ilişki: hız, mesafe-zaman fonksiyonuna nasıl bağlı?

Builder Notu — Kümülatif ↔︎ Anlık

$s(t)$ (biriken nicelik) ile hız (onun değişim oranı) ilişkisi, Ders 1’deki integral↔︎türev çiftinin somut hâli. ML’de bunun eşdeğeri: kümülatif bir nicelik (toplam ödül, biriken kayıp) ile onun anlık değişimi (adım ödülü, gradyan) arasındaki bağ. Birini bilince diğerini türev/integral ile geçersin.

3.4 Tek Anda Hız Neden Anlamsız?

“Hız” kelimesinin burada tam ne demek olduğunu eleştirel düşünelim. Sezgisel olarak bir andaki hız, arabanın o anda hız göstergesinde (speedometer) gösterdiği şeydir; ve mesafe fonksiyonu dik olduğunda hızın yüksek olması mantıklı görünür.

Ama tuhaf olan şu: tek bir anda hız anlamsızdır. Sana bir arabanın tek bir anlık fotoğrafını gösterip “ne kadar hızlı gidiyor?” diye sorsam, söyleyemezsin. İhtiyacın olan şey, karşılaştıracak iki ayrı zaman noktası: mesafedeki değişimi zamandaki değişime bölersin. Hız zaten budur — birim zamanda kat edilen mesafe.

İşte paradoks: tek tek zaman noktalarına bir hız atamak istiyoruz, ama hızı hesaplamak iki ayrı zaman noktasını karşılaştırmayı gerektiriyor.

Gerçek dünyada araba bunu nasıl atlatır? 3. saniyede hız göstergesi, arabanın çok küçük bir zamanda gittiği yolu ölçer — diyelim 3 ile 3,01 saniye arası — ve bu küçük mesafeyi küçük zamana (0,01 s) böler. Yani fiziksel araba paradoksu yan geçer: tek bir anda değil, çok küçük bir zaman aralığında hız hesaplar.

“a physical car just side-steps the paradox … it computes speed during a very small amount of time.” — Grant, 5:08

Builder Notu — Finite Difference

Bu “iki yakın nokta al, oranı hesapla” fikri, sayısal türevin (finite difference) ta kendisidir. Bir gradyanı elle doğrulamak istediğinde (gradient checking) tam bunu yaparsın: $[L(w+\varepsilon) - L(w)] / \varepsilon$. Otomatik türev (autodiff) ise bu oranı sonlu $\varepsilon$ ile değil, cebirsel limitle hesaplar — sonraki bölümde göreceğimiz gibi bu hem daha hızlı hem daha doğrudur.

3.5 $ds/dt$: İki Yakın Nokta Arasındaki Eğim

Bu küçük zaman farkına $dt$ diyelim ($0{,}01$ gibi düşün), ve onun yol açtığı küçük mesafe farkına $ds$. O hâlde bir andaki hız, yaklaşık olarak $ds/dt$ — küçük mesafe değişiminin küçük zaman değişimine oranı.

Şekil 3.3: Sekant doğrusu ($ds/dt$ fark oranı) $dt \to 0$ iken teğet doğrusuna yakınsar. Mesafe grafiğinin $t=3$ noktasındaki türevi, teğetin eğimidir.

Grafiksel olarak: $t = 3$ civarında mesafe-zaman grafiğine yakınlaş. $dt$ sağa doğru küçük bir adım (zaman yatay eksende), $ds$ ise grafiğin yüksekliğindeki buna karşılık gelen değişim. Yani $ds/dt$, grafikteki birbirine çok yakın iki nokta arasındaki yükselme/yatay (rise/run) eğimidir.

\[ \frac{ds}{dt} = \frac{s(t + dt) - s(t)}{dt} \]

$t = 3$’te özel bir şey yok; bunu her $t$ için yapabiliriz, böylece $ds/dt$’yi $t$’nin bir fonksiyonu — hız fonksiyonu — olarak görürüz.

İşte kritik nokta: saf matematikteki türev, belirli bir $dt$ için bu $ds/dt$ oranı değildir. Türev, $dt$ giderek küçülürken (0’a yaklaşırken) bu oranın yaklaştığı değerdir.

\[ \frac{ds}{dt} = \lim_{dt \to 0} \frac{s(t + dt) - s(t)}{dt} \]

Bunun çok güzel bir görsel anlamı var: $dt \to 0$ iken iki nokta birbirine yaklaşır ve onlardan geçen doğrunun eğimi, grafiğe o tek noktada teğet olan doğrunun eğimine yakınsar.

“the true honest-to-goodness pure math derivative … is equal to the slope of a line tangent to the graph at a single point.” — Grant, 8:33

İnce ama hayati nokta: türev, $dt$ sonsuz küçük olduğunda olan şey değildir (öyle bir şey yok); $dt$’ye 0 koymak da değildir (sıfıra bölme olurdu). $dt$ daima sonlu, sıfır-olmayan bir değerdir — yalnızca 0’a yaklaşır.

“this dt is always a finitely small non-zero value, it’s just that it approaches 0.” — Grant, 9:03

Bu yüzden bu eğimi “anlık değişim oranı” değil, “bir nokta civarında değişim oranının en iyi sabit yaklaşımı” olarak düşünmek en sağlıklısıdır.

Builder Notu — Yerel Lineer Model

Teğet doğru = fonksiyonun o noktadaki en iyi doğrusal yaklaşımı (birinci dereceden Taylor). ML’de gradient tam bu rolü oynar: yüksek boyutlu kayıp yüzeyini, bulunduğun noktada bir hiper-düzlemle (lineer model) yaklaştırır. Gradient descent her adımda bu yerel doğrusal modele güvenir; adım çok büyük olursa yaklaşım bozulur — bu yüzden learning rate küçük tutulur.

3.6 Worked Example: $d(t^3)/dt = 3t^2$

Garip ama gerçek: “$dt$ küçülürken oran neye yaklaşır?” diye sormak hesabı zorlaştırmaz, kolaylaştırır. Görelim.

Mesafe fonksiyonun tam olarak $t^3$ olsun (1 saniyede $1^3 = 1$ m, 2 saniyede $2^3 = 8$ m, …). Hızı, yani $ds/dt$’yi, belirli bir anda — diyelim $t = 2$’de — hesaplamak isteyelim. Şimdilik $dt$’yi somut bir büyüklük olarak tutalım; birazdan 0’a göndereceğiz. 2 ile $2+dt$ arasındaki küçük mesafe değişimi $s(2+dt) - s(2)$, bölü $dt$:

\[ \frac{s(2+dt) - s(2)}{dt} = \frac{(2+dt)^3 - 2^3}{dt} \]

Üstteki ifadeyi cebirsel olarak açalım:

\[ (2+dt)^3 = 2^3 + 3 \cdot 2^2 \, dt + 3 \cdot 2 \, dt^2 + dt^3 \]

Karmaşık görünüyor ama sadeleşiyor. $2^3$ terimleri (açılımdaki ile çıkarılan) birbirini götürür. Geriye kalan her terimde bir $dt$ var; paydadaki $dt$ ile sadeleşince:

\[ \frac{ds}{dt} = 3 \cdot 2^2 + 3 \cdot 2 \, dt + dt^2 \;\xrightarrow{\; dt \to 0 \;}\; 3 \cdot 2^2 = 12 \]

Şekil 3.4: $(2+dt)^3$ açılımının terimleri: ana terim $3 \cdot 2^2 = 12$ (mavi), $dt$ ile orantılı düzeltme (turuncu), $dt^2$ ile orantılı çok küçük artık (kırmızı). $dt \to 0$ iken yalnızca 12 hayatta kalır.

$dt \to 0$ sorduğumuzda, içinde $dt$ olan terimleri tamamen yok sayabiliriz. Geriye tertemiz $3 \cdot 2^2 = 12$ kalır: bu, $t = 2$ noktasındaki teğet doğrunun eğimidir. $t = 2$’de özel bir şey yok; genel olarak:

\[ \frac{d}{dt}\, t^3 = 3t^2 \]

“the derivative of t cubed as a function of t is 3 times t squared.” — Grant, 13:10

İşte calculus’un neden bu kadar işe yaradığının kalbi: belirli bir $dt$ için ifade bir karmaşaydı; ama oranın $dt \to 0$ iken yaklaştığı değere bakınca, o karmaşanın çoğunu yok sayabiliyoruz.

“that right there is kind of the heart of why calculus becomes useful.” — Grant, 14:13

Builder Notu — Dual Sayılar

$dt \to 0$ iken $dt^2$ ve $dt^3$ terimlerini atmak tesadüf değil — forward-mode autodiff bunu birebir mekanikleştirir. Dual sayılar $a + b\varepsilon$ (burada $\varepsilon^2 = 0$ tanımlıdır) ile çalışırsın: $(2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon$, çünkü $\varepsilon^2$ ve sonrası sıfır. $\varepsilon$’un katsayısı (12) tam olarak türevdir. Yani Grant’ın “$dt$’li yüksek terimleri yok say” hilesi, modern otomatik türevin cebirsel temelidir; PyTorch/JAX bunu sembolik açılım yapmadan, sayısal fark hatası olmadan yapar.

3.7 Paradoksun Çözümü: En İyi Sabit Yaklaşım

Somut bir türev ($3t^2$) elimizde olunca, “anlık hız” yanılsamasına fazla inanırsak çıkan paradoksu görebiliriz. $t^3$ mesafe fonksiyonuyla giden arabayı düşün ve başlangıç anına, $t = 0$’a bak. Araba o anda hareket ediyor mu?

Bir yandan: hızı türevle hesaplarız, $3t^2$, ve $t = 0$ için bu $0$ çıkar. Teğet doğru tam yatay; yani “anlık hız” 0, demek ki hareket etmiyor.

\[ 3t^2 \big|_{t=0} = 3 \cdot 0^2 = 0 \]

Öte yandan: eğer $t = 0$’da hareket etmiyorsa, ne zaman hareket etmeye başlıyor? Bir an dur ve düşün.

“do you see the paradox? The issue is that the question makes no sense.” — Grant, 15:24

Çözüm: soru anlamsız, çünkü “bir anda değişim” fikrine atıfta bulunuyor ama öyle bir şey yok — türevin ölçtüğü o değil. Bir mesafe fonksiyonunun türevinin 0 olması demek, arabanın o nokta civarındaki hızının en iyi sabit yaklaşımının 0 m/s olması demektir. Gerçek bir zaman aralığına bakarsan (0 ile 0,1 s arası) araba hareket eder: $0{,}001$ m gider, yani ortalama hız $0{,}01$ m/s. Daha küçük dürtüşler için bu oran 0’a yaklaşır — ama bu, arabanın durağan olduğu anlamına gelmez; 0 sabit hızıyla yaklaştırmak sadece bir yaklaşımdır.

Bu yüzden birisi türeve “anlık değişim oranı” dediğinde — özünde çelişkili bu ifade — onu “değişim oranının en iyi sabit yaklaşımı” için kavramsal bir kısaltma olarak düşün.

“think of that as a conceptual shorthand for the best constant approximation for rate of change.” — Grant, 16:33

Builder Notu — Kritik Noktalar

“Türev = en iyi sabit/lineer yaklaşım” bakışı, optimizasyonun temelidir. Gradient descent, kayıp yüzeyini her noktada bir teğet düzlemle (birinci derece) yaklaştırıp o yönde adım atar. Türevin 0 olması (kritik nokta) ise “yerel olarak düz” demektir — minimum, maksimum veya eyer noktası. $t = 0$’daki düz teğet, bir loss minimumundaki sıfır gradyanın birebir analoğudur: gradyan 0 olması, modelin “durduğu” anlamına gelmez, yalnızca o noktadaki en iyi lineer yaklaşımın sabit olduğunu söyler.

3.8 Bu Dersin Özeti

Türev sık sık “anlık değişim oranı” diye anılır, ama bu bir oksimorondur: değişim iki ayrı nokta gerektirir, tek bir anda değişime yer yoktur.
Araba örneği: mesafe $s(t)$, hız = $ds/dt$. Mesafe grafiği dikleştiğinde hız yüksektir.
Tek anda hız anlamsızdır; gerçek araba paradoksu yan geçer — $t$ ile $t+dt$ arasındaki mesafeyi ölçüp $dt$’ye böler.
$ds/dt$, iki yakın nokta arasındaki eğimdir; türev ise $dt \to 0$ iken bu oranın yaklaştığı değer = o noktadaki teğet doğrunun eğimi.
$dt$ ne sonsuz küçüktür ne de 0’dır; yalnızca 0’a yaklaşır. (0 koymak sıfıra bölme olurdu.)
$d(t^3)/dt = 3t^2$: $(2+dt)^3$ açılımında $dt$’li terimler $dt \to 0$’da kaybolur. Bu sadeleşme, calculus’un neden işe yaradığının kalbidir.
Türev, “en iyi sabit yaklaşım”dır; $t = 0$’da $3 \cdot 0^2 = 0$ olması, arabanın gerçekten durduğu anlamına gelmez.

Tek bir cümle

Türev, $ds/dt$ fark oranının $dt \to 0$ iken yaklaştığı değerdir — geometrik olarak teğet doğrunun eğimi, kavramsal olarak “anlık” değil, bir nokta civarında değişim oranının en iyi sabit yaklaşımı.

3.9 Kontrol Soruları

Soru 1: s(t) = t² için t = 3’te türevi, açılım yöntemiyle (dt → 0) bul.

Cevap: $[s(3+dt) - s(3)] / dt = [(3+dt)^2 - 3^2] / dt = [9 + 6\,dt + dt^2 - 9] / dt = (6\,dt + dt^2)/dt = 6 + dt$. $dt \to 0$ iken bu $6$’ya gider. Yani $d(t^2)/dt = 2t$ ve $t = 3$’te değer $2 \cdot 3 = 6$. (Genel kuvvet kuralı: $d(t^n)/dt = n \cdot t^{n-1}$.)

Soru 2: ‘Türev, dt’ye 0 koymaktır’ demek neden yanlış?

Cevap: $dt$’ye 0 koyarsan pay da payda da 0 olur: $0/0$ belirsizdir, tanımsız. Türev, oranın $dt = 0$’daki değeri değil, $dt \to 0$ iken yaklaştığı limittir. $dt$ daima sonlu ve sıfır-olmayan kalır; biz yalnızca giderek küçülen dürtüşlerde oranın hangi sayıya yaklaştığına bakarız. Bu ayrım, paradokstan kaçmanın anahtarıdır.

Soru 3: Bir fonksiyonun bir noktadaki türevi 0 ise, fonksiyon o noktada ‘durağan/sabit’ midir?

Cevap: Hayır. Türevin 0 olması, yalnızca o nokta civarındaki en iyi sabit (lineer) yaklaşımın eğiminin 0 olduğunu söyler. Fonksiyon hâlâ değişiyor olabilir — $t^3$ fonksiyonu $t = 0$’da türevi 0’dır ama araba durağan değildir; 0,1 s’de 0,001 m gider. Türevin 0 olduğu nokta bir kritik noktadır: yerel minimum, maksimum ya da eyer noktası olabilir.

Soru 4: (Builder) Forward-mode autodiff, dual sayılarla d(t³)/dt’yi t = 2’de nasıl verir?

Cevap: Dual sayı $2 + \varepsilon$ al ($\varepsilon^2 = 0$ tanımlı). $(2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon$ (çünkü $\varepsilon^2$ ve sonrası sıfır). $\varepsilon$’un katsayısı 12, tam olarak türevdir ($3 \cdot 2^2 = 12$). Bu, Grant’ın “$dt^2$ ve sonrası terimleri at” hilesinin birebir cebirsel mekaniğidir; PyTorch/JAX türevleri ne sembolik açılımla ne de sayısal fark hatasıyla, bu dual-sayı yapısıyla (ileri mod) hesaplar.

3.10 Egzersizler

Egzersiz 1. Türevin limit tanımını kullanarak $d(t^2)/dt$’yi genel $t$ için türet: $[(t+dt)^2 - t^2] / dt$ ifadesini sadeleştir ve $dt \to 0$ limitini al. Sonucun $2t$ çıktığını göster.

Egzersiz 2. $(t+dt)^4$ açılımını yaz (binom). $d(t^4)/dt$’yi, $dt$’li terimleri $dt \to 0$’da atarak hesapla ve kuvvet kuralının ($4t^3$) doğrulandığını göster.

Egzersiz 3. (Türev her zaman var mı?) $f(t) = |t|$ fonksiyonunu $t = 0$’da incele. $[f(0+dt) - f(0)] / dt$ oranını $dt > 0$ ve $dt < 0$ için ayrı ayrı hesapla. Sağdan ve soldan farklı değerler ($+1$ ve $-1$) çıktığı için limit yoktur → $f$, $t = 0$’da türevlenemez (bir köşe). Sonuç: her fonksiyon her noktada türevlenebilir değildir.

Egzersiz 4. (Python — görsel doğrulama) $s(t) = t^3$ için sayısal türevi $[s(t+h) - s(t)] / h$ ile hesapla; $h$ küçüldükçe $t = 2$’de $3 \cdot 2^2 = 12$’ye yakınsadığını göster. $h$ çok küçülünce kayan-nokta yuvarlama hatasının nasıl büyüdüğüne dikkat et (autodiff’in sonlu farktan neden üstün olduğunun kanıtı).

teorik turev 3*t^2 = 12.0
h=   1e+00  yaklasik=19.00000000  hata=7.000e+00
h=   5e-01  yaklasik=15.25000000  hata=3.250e+00
h=   1e-01  yaklasik=12.61000000  hata=6.100e-01
h=   1e-02  yaklasik=12.06010000  hata=6.010e-02
h=   1e-04  yaklasik=12.00060001  hata=6.000e-04
h=   1e-06  yaklasik=12.00000600  hata=6.002e-06
h=   1e-09  yaklasik=12.00000099  hata=9.929e-07
h=   1e-12  yaklasik=12.00106681  hata=1.067e-03

Şekil 3.5: Sonlu fark hatasının ünlü U-eğrisi: $h$ büyükken kesme hatası (truncation), $h$ çok küçükken yuvarlama hatası (floating-point) baskın. Tatlı nokta ~$10^{-5}$ civarında.

Egzersiz 5. (Sonraki dersin habercisi) $d(t^2)/dt = 2t$ ve $d(t^3)/dt = 3t^2$ sonuçlarını cebir yapmadan düşün: kenarı $t$ olan bir karenin alanı $t^2$, kenarı $dt$ büyürse alan ne kadar artar? Kenarı $t$ olan bir küpün hacmi $t^3$, kenar $dt$ büyürse hacim ne kadar artar? Ders 3 bu türevleri tam olarak böyle — kareyi ve küpü büyüterek, geometrik olarak — türetecek.

3.11 Sonraki Ders İçin Hazırlık

Ders 3: Geometriyle Türev Formülleri

Ders 2’de bir türevi ($t^3 \to 3t^2$) cebirsel olarak, gözle görülür bir karmaşadan geçerek türettik. Ders 3’te Grant aynı formülleri görsel olarak türetiyor: $x^2$ bir karenin alanı, $x^3$ bir küpün hacmi olarak düşünülünce, türev “kenarı azıcık büyütünce alan/hacim ne kadar artar?” sorusuna dönüşür ve formüller diyagramdan kendiliğinden çıkar.

Ana konular:

$d(x^2)/dx = 2x$’in kare-büyütme diyagramıyla türetimi.
$d(x^3)/dx = 3x^2$ ve genel kuvvet kuralı, geometrik olarak.
$1/x$ ve $\sin(x)$ gibi fonksiyonların türevleri için görsel sezgiler.

3.12 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Grant’ta
Türevin paradoksu	“Anlık değişim oranı” oksimorondur; değişim iki nokta ister	0m35
Mesafe fonksiyonu $s(t)$	Zamana karşı kat edilen yol; grafiğin eğimi = hız	1m46
$ds/dt$ (fark oranı)	İki yakın nokta arasındaki rise/run eğimi	5m51
Türev = limit	$dt \to 0$ iken $ds/dt$ oranının yaklaştığı değer	8m02
Teğet doğru eğimi	Türevin geometrik anlamı (tek noktada)	8m33
$dt$ sonlu, sıfır değil	Türev, $dt$’ye 0 koymak değil; 0’a yaklaşmaktır	9m03
$d(t^3)/dt = 3t^2$	$(2+dt)^3$ aç, $dt$’li terimleri at → $3 \cdot 2^2$	13m10
Kuvvet kuralı	$d(t^n)/dt = n \cdot t^{n-1}$	13m04
En iyi sabit yaklaşım	“Anlık oran” yerine türevin doğru kavramı	16m33

3.13 ML Bağlantıları Özeti

7 köprü

Türev = fark oranının limiti → sayısal türev ve gradient checking ($[L(w+\varepsilon) - L(w)]/\varepsilon$ ile gradyan doğrulama).
Teğet = en iyi lineer yaklaşım → gradient, kayıp yüzeyinin yerel lineer modeli; learning rate, bu yaklaşımın geçerli kaldığı komşuluğu belirler.
“$dt^2$ terimini at” → forward-mode autodiff dual sayıları ($\varepsilon^2 = 0$); türevin cebirsel mekaniği, sembolik açılım veya sayısal hata olmadan.
Kuvvet kuralı $d(t^n)/dt = n \cdot t^{n-1}$ → autodiff kural tablosunun temel girdileri (her primitif işlemin yerel türevi tanımlı).
Türev 0 = kritik nokta → loss yüzeyinde minimum/maksimum/eyer; sıfır gradyan “yerel olarak düz” demektir, “durağan” değil.
“Anlık değil, sonlu $dt$” → ayrıklaştırma: Euler çözücü adımı, SGD adımı; sürekli türev bunların $dt \to 0$ limiti.
Türevlenemezlik ($|t|$ köşesi) → ReLU’nun 0’daki köşesi; pratikte alt-gradyan (subgradient) kullanılır ve tek bir noktadaki kırılma optimizasyonu nadiren bozar.

Tek bir şey alıp gideceksen

Türev, “bir anda değişim” değildir — öyle bir şey yok. Türev, $ds/dt$ fark oranının $dt \to 0$ iken yaklaştığı limittir: geometrik olarak teğet doğrunun eğimi, kavramsal olarak bir nokta civarındaki değişim oranının en iyi sabit yaklaşımı. Paradoks, soruyu yanlış sormaktan doğar.

--- title: "Türevin Paradoksu" subtitle: "Anlık değişim oranı, dt → 0 ve teğet doğrunun eğimi" --- ::: {.callout-note title="Bölüm bilgisi"} - **Grant'ın videosu:** [YouTube — Chapter 2: The paradox of the derivative](https://www.youtube.com/watch?v=9vKqVkMQHKk&list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr&index=2) (≈17 dk) - **Kaynak:** [3Blue1Brown — Essence of Calculus](https://www.3blue1brown.com/topics/calculus) - **Okuma süresi:** ≈22 dk ::: ## Bu Derste Ne Var? {#sec-paradoks-intro} [Ders 1](01-calculus-ozu.qmd)'de calculus'un üç fikrine — integral, türev, terslik — yukarıdan baktık. Bu derste **türevi** yakından tanımlıyoruz. Ama bir tuzak var: türev genelde *"anlık değişim oranı"* diye tanımlanır — oysa Grant'a göre bu ifade bir **oksimorondur**. Değişim iki nokta arasında olur; tek bir ana kilitlenince değişime yer kalmaz. Calculus'un kurucularının zekası, bu paradoksu $dt$'yi **sıfıra yaklaştırarak** (ama sıfır yapmadan) zarifçe atlatmakta. **Üç ana fikir:** 1. **Türev = $ds/dt$ oranının, $dt \to 0$ iken yaklaştığı değer.** Belirli bir $dt$ için değil, limitinde. 2. **Geometrik anlam:** bir noktadaki **teğet doğrunun eğimi**. 3. **$d(t^3)/dt = 3t^2$** — ve "$dt$'li terimleri yok say" hilesi, calculus'u kullanışlı yapan şeydir. ```{mermaid} %%| label: fig-paradoks-map %%| fig-cap: "Paradoksun çözümünün yol haritası: oksimorondan limite, limitten teğet eğimine." flowchart LR A["'Anlık değişim oranı'<br/>(oksimoron)"] --> B["İki yakın nokta:<br/>ds/dt fark oranı"] B --> C["dt → 0 limit"] C --> D["Teğet doğrunun eğimi"] D --> E["d(t³)/dt = 3t²<br/>(dt'li terimler atılır)"] E --> F["En iyi sabit yaklaşım<br/>(anlık değil)"] style A fill:#fce4ec,stroke:#c2185b,stroke-width:2px style C fill:#fff3e0,stroke:#f57c00,stroke-width:2px style F fill:#e3f2fd,stroke:#1976d2,stroke-width:2px ``` > *"it's common for people to say that the derivative measures an instantaneous rate of change, but ... that phrase is actually an oxymoron."* — Grant, 0:35 ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **Türev = fark oranının limiti** → sayısal türev ve **gradient checking**: backprop gradyanını, $[f(w+\varepsilon) - f(w)]/\varepsilon$ sonlu farkıyla doğrularsın. - **Teğet = en iyi yerel doğrusal yaklaşım** → birinci-derece Taylor; gradient, bir noktada fonksiyonun **en iyi lineer modeli**dir. - **"$dt^2$ terimini yok say" hilesi** → forward-mode autodiff'in **dual sayıları** ($a + b\varepsilon$, $\varepsilon^2 = 0$): yüksek dereceli terimleri tam olarak düşürür. Türevin cebirsel mekaniği birebir budur. - **"Anlık değil, en iyi sabit yaklaşım"** → pratikte hep sonlu $dt$ (Euler adımı, learning rate); sürekli türev bunun limiti. - **Kuvvet kuralı $d(t^n)/dt = n \cdot t^{n-1}$** → otomatik türev kural tablosunun ilk girdisi. ::: ## Hedef ve Paradoks: "Anlık Değişim Oranı" Bir Oksimoron {#sec-oksimoron} Amaç basit: türevin ne olduğunu açıklamak. Ama konu incelikli ve dikkatsiz olursan paradokslarla dolu. Bu yüzden ikincil hedef, bu paradoksları görmek ve onlardan nasıl kaçınacağını anlamak. Sık duyarsın: *"türev, anlık değişim oranını ölçer."* Oysa düşününce bu ifade kendi içinde çelişkili. **Değişim**, ayrı zaman noktaları arasında olan bir şeydir; kendini tek bir ana körleştirdiğinde, değişime hiç yer kalmaz. Yine de "anlık hız" demek istediğimiz gerçek bir sezgi var — ve calculus'un kurucuları bu sezgiyi, mantıklı bir matematik parçasıyla (türevle) yakaladılar. > *"if that feels strange and paradoxical, good! You're grappling with the same conflicts that the fathers of calculus did."* — Grant, 4:14 ::: {.callout-tip title="Builder Notu — Ayrıklaştırma"} Bu paradoks ML'de **ayrıklaştırma (discretization)** olarak karşına çıkar. Bir optimizasyon adımı ya da bir ODE çözücü, "anlık" türevi asla doğrudan kullanmaz; hep sonlu bir adım ($dt$, learning rate) alır. Sürekli türev, bu sonlu adımların $dt \to 0$ limitidir. "Anlık oran" matematiksel bir idealizasyon; pratikte daima yaklaşık, sonlu bir fark hesaplarsın. ::: ## Araba Örneği: Mesafe ve Hız {#sec-araba} Merkezî örneğimiz: bir araba A noktasından başlıyor, hızlanıyor, sonra yavaşlayıp 100 metre ötedeki B noktasında duruyor — tüm bunlar 10 saniyede oluyor. ```{python} #| label: fig-araba-mesafe-hiz #| fig-cap: "Aynı hareketin iki yüzü: mesafe $s(t)$ ve hız $v(t) = ds/dt$. Mesafe grafiği dikleşince hız zirveye çıkar; sığlaşınca sıfıra döner." #| fig-width: 11 #| fig-height: 4.5 import numpy as np import matplotlib.pyplot as plt # Mesafe: t = 0'da 0, t = 10'da 100, simetrik hızlanma/yavaşlama (cubic-like). # s(t) = 100 * (3*(t/10)^2 - 2*(t/10)^3) (smooth Hermite) t = np.linspace(0, 10, 200) u = t / 10.0 s = 100 * (3*u**2 - 2*u**3) v = np.gradient(s, t) fig, axes = plt.subplots(1, 2, figsize=(11, 4.5)) ax = axes[0] ax.plot(t, s, color='#1e3a8a', linewidth=2.5) ax.set_xlabel('zaman $t$ (s)', fontsize=11) ax.set_ylabel('mesafe $s(t)$ (m)', fontsize=11) ax.set_title('Mesafe — A\'dan B\'ye 10 saniyede 100 m', fontsize=11) ax.axhline(100, color='#94a3b8', linestyle=':', linewidth=1) ax.axhline(0, color='#94a3b8', linestyle=':', linewidth=1) ax.grid(alpha=0.3) # tepeyi vurgula ax.annotate('eğri dikleşir\n(hızlanma)', xy=(3, s[60]), xytext=(1.5, 70), fontsize=9, arrowprops=dict(arrowstyle='->', color='#dc2626')) ax.annotate('eğri sığlaşır\n(yavaşlama)', xy=(7.5, s[150]), xytext=(7, 30), fontsize=9, arrowprops=dict(arrowstyle='->', color='#dc2626')) ax = axes[1] ax.plot(t, v, color='#c2410c', linewidth=2.5) ax.fill_between(t, 0, v, color='#fb923c', alpha=0.25) ax.set_xlabel('zaman $t$ (s)', fontsize=11) ax.set_ylabel('hız $v(t)$ (m/s)', fontsize=11) ax.set_title(r'Hız = $\frac{ds}{dt}$ — tepe ortada', fontsize=11) ax.grid(alpha=0.3) ax.annotate('zirve', xy=(5, v.max()), xytext=(5.5, v.max()*0.7), fontsize=10, arrowprops=dict(arrowstyle='->', color='#1e3a8a')) plt.tight_layout() plt.show() ``` Bu hareketi grafikleyebiliriz: dikey eksen kat edilen **mesafe**, yatay eksen **zaman**. Her $t$ anında grafiğin yüksekliği, arabayı o ana kadar ne kadar yol gittiğini söyler. Bu mesafe fonksiyonuna $s(t)$ diyelim ($d$ harfi calculus'ta zaten başka bir işte çalışıyor). Başlangıçta eğri **sığ**: araba yavaş, ilk saniyede az yol alır. Orta bölümde hızlanır, her saniye daha çok yol — grafiğin eğimi **diklesir**. Sona doğru yavaşlayınca eğri yine sığlaşır. Aynı hareketin **hızını** (m/s) zamana karşı çizersek, bir tepe (bump) elde ederiz: başta küçük, ortada maksimum, sonda yine sıfıra iner. Bu iki eğri birbiriyle ilişkili — mesafe fonksiyonunu değiştirirsen hız fonksiyonu da değişir. Anlamak istediğimiz tam olarak bu ilişki: hız, mesafe-zaman fonksiyonuna nasıl bağlı? ::: {.callout-tip title="Builder Notu — Kümülatif ↔ Anlık"} $s(t)$ (biriken nicelik) ile hız (onun değişim oranı) ilişkisi, [Ders 1](01-calculus-ozu.qmd)'deki integral↔türev çiftinin somut hâli. ML'de bunun eşdeğeri: **kümülatif** bir nicelik (toplam ödül, biriken kayıp) ile onun **anlık** değişimi (adım ödülü, gradyan) arasındaki bağ. Birini bilince diğerini türev/integral ile geçersin. ::: ## Tek Anda Hız Neden Anlamsız? {#sec-tek-an} "Hız" kelimesinin burada tam ne demek olduğunu eleştirel düşünelim. Sezgisel olarak bir andaki hız, arabanın o anda hız göstergesinde (speedometer) gösterdiği şeydir; ve mesafe fonksiyonu dik olduğunda hızın yüksek olması mantıklı görünür. Ama tuhaf olan şu: **tek bir anda hız anlamsızdır.** Sana bir arabanın tek bir anlık fotoğrafını gösterip "ne kadar hızlı gidiyor?" diye sorsam, söyleyemezsin. İhtiyacın olan şey, karşılaştıracak **iki ayrı zaman noktası**: mesafedeki değişimi zamandaki değişime bölersin. Hız zaten budur — birim zamanda kat edilen mesafe. İşte paradoks: tek tek zaman noktalarına bir hız atamak istiyoruz, ama hızı hesaplamak iki ayrı zaman noktasını karşılaştırmayı gerektiriyor. Gerçek dünyada araba bunu nasıl atlatır? 3. saniyede hız göstergesi, arabanın çok küçük bir zamanda gittiği yolu ölçer — diyelim 3 ile 3,01 saniye arası — ve bu küçük mesafeyi küçük zamana (0,01 s) böler. Yani fiziksel araba paradoksu **yan geçer**: tek bir anda değil, çok küçük bir zaman aralığında hız hesaplar. > *"a physical car just side-steps the paradox ... it computes speed during a very small amount of time."* — Grant, 5:08 ::: {.callout-tip title="Builder Notu — Finite Difference"} Bu "iki yakın nokta al, oranı hesapla" fikri, **sayısal türevin** (finite difference) ta kendisidir. Bir gradyanı elle doğrulamak istediğinde (gradient checking) tam bunu yaparsın: $[L(w+\varepsilon) - L(w)] / \varepsilon$. Otomatik türev (autodiff) ise bu oranı sonlu $\varepsilon$ ile değil, cebirsel limitle hesaplar — sonraki bölümde göreceğimiz gibi bu hem daha hızlı hem daha doğrudur. ::: ## $ds/dt$: İki Yakın Nokta Arasındaki Eğim {#sec-ds-dt} Bu küçük zaman farkına $dt$ diyelim ($0{,}01$ gibi düşün), ve onun yol açtığı küçük mesafe farkına $ds$. O hâlde bir andaki hız, yaklaşık olarak $ds/dt$ — küçük mesafe değişiminin küçük zaman değişimine oranı. ```{python} #| label: fig-secant-tangent #| fig-cap: "Sekant doğrusu ($ds/dt$ fark oranı) $dt \\to 0$ iken teğet doğrusuna yakınsar. Mesafe grafiğinin $t=3$ noktasındaki türevi, teğetin eğimidir." #| fig-width: 12 #| fig-height: 4 # Mesafe: ders boyunca kullanılan smooth fonksiyon s_fn = lambda t: 100 * (3*(t/10)**2 - 2*(t/10)**3) t_full = np.linspace(0, 10, 400) s_full = s_fn(t_full) t0 = 3.0 s0 = s_fn(t0) # Türev: ds/dt = 100 * (6t/100 - 6t^2/1000) = 6t/10 - 6t^2/100 / ... aslında # d/dt [3*(t/10)^2 - 2*(t/10)^3] = 6t/100 - 6t^2/1000 # *100 alınca = 6t - 6t^2/10 egim_t0 = 6*t0 - 6*t0**2/10 fig, axes = plt.subplots(1, 3, figsize=(12, 4), sharey=True) configs = [(1.5, '#fde68a'), (0.5, '#fb923c'), (0.05, '#dc2626')] for ax, (dt, color) in zip(axes, configs): ax.plot(t_full, s_full, color='#1e3a8a', linewidth=2, label='$s(t)$') # sekant t1 = t0 + dt s1 = s_fn(t1) ax.plot([t0, t1], [s0, s1], 'o', color=color, markersize=10, markeredgecolor='#7c2d12', zorder=5) # uzatılmış sekant egim_sekant = (s1 - s0) / dt ts = np.linspace(t0 - 0.8, t1 + 0.8, 30) ax.plot(ts, egim_sekant*(ts - t0) + s0, '--', color=color, linewidth=2, label=f'sekant eğimi = {egim_sekant:.2f}') # gerçek teğet tt = np.linspace(t0 - 1, t0 + 1, 30) ax.plot(tt, egim_t0*(tt - t0) + s0, ':', color='#0f172a', linewidth=1.5, label=f'teğet = {egim_t0:.2f}') ax.set_title(f'$dt = {dt}$', fontsize=11) ax.set_xlabel('$t$', fontsize=11) if ax is axes[0]: ax.set_ylabel('$s(t)$', fontsize=11) ax.grid(alpha=0.3) ax.legend(loc='upper left', fontsize=8) ax.set_xlim(0, 10); ax.set_ylim(-5, 105) fig.suptitle(r'$dt \to 0$: sekant eğimi → teğet eğimine yakınsar', fontsize=12, y=1.02) plt.tight_layout() plt.show() ``` Grafiksel olarak: $t = 3$ civarında mesafe-zaman grafiğine yakınlaş. $dt$ sağa doğru küçük bir adım (zaman yatay eksende), $ds$ ise grafiğin yüksekliğindeki buna karşılık gelen değişim. Yani $ds/dt$, grafikteki birbirine çok yakın iki nokta arasındaki **yükselme/yatay (rise/run) eğimidir**. $$ \frac{ds}{dt} = \frac{s(t + dt) - s(t)}{dt} $$ $t = 3$'te özel bir şey yok; bunu her $t$ için yapabiliriz, böylece $ds/dt$'yi $t$'nin bir fonksiyonu — hız fonksiyonu — olarak görürüz. İşte kritik nokta: saf matematikteki türev, belirli bir $dt$ için bu $ds/dt$ oranı **değildir**. Türev, $dt$ giderek küçülürken (0'a yaklaşırken) bu oranın **yaklaştığı** değerdir. $$ \frac{ds}{dt} = \lim_{dt \to 0} \frac{s(t + dt) - s(t)}{dt} $$ Bunun çok güzel bir görsel anlamı var: $dt \to 0$ iken iki nokta birbirine yaklaşır ve onlardan geçen doğrunun eğimi, grafiğe o tek noktada **teğet olan doğrunun eğimine** yakınsar. > *"the true honest-to-goodness pure math derivative ... is equal to the slope of a line tangent to the graph at a single point."* — Grant, 8:33 İnce ama hayati nokta: türev, $dt$ sonsuz küçük olduğunda olan şey **değildir** (öyle bir şey yok); $dt$'ye 0 koymak da **değildir** (sıfıra bölme olurdu). $dt$ daima sonlu, sıfır-olmayan bir değerdir — yalnızca 0'a yaklaşır. > *"this dt is always a finitely small non-zero value, it's just that it approaches 0."* — Grant, 9:03 Bu yüzden bu eğimi "anlık değişim oranı" değil, **"bir nokta civarında değişim oranının en iyi sabit yaklaşımı"** olarak düşünmek en sağlıklısıdır. ::: {.callout-tip title="Builder Notu — Yerel Lineer Model"} Teğet doğru = fonksiyonun o noktadaki **en iyi doğrusal yaklaşımı** (birinci dereceden Taylor). ML'de gradient tam bu rolü oynar: yüksek boyutlu kayıp yüzeyini, bulunduğun noktada bir **hiper-düzlemle** (lineer model) yaklaştırır. Gradient descent her adımda bu yerel doğrusal modele güvenir; adım çok büyük olursa yaklaşım bozulur — bu yüzden learning rate küçük tutulur. ::: ## Worked Example: $d(t^3)/dt = 3t^2$ {#sec-t-kup} Garip ama gerçek: "$dt$ küçülürken oran neye yaklaşır?" diye sormak hesabı zorlaştırmaz, **kolaylaştırır**. Görelim. Mesafe fonksiyonun tam olarak $t^3$ olsun (1 saniyede $1^3 = 1$ m, 2 saniyede $2^3 = 8$ m, ...). Hızı, yani $ds/dt$'yi, belirli bir anda — diyelim $t = 2$'de — hesaplamak isteyelim. Şimdilik $dt$'yi somut bir büyüklük olarak tutalım; birazdan 0'a göndereceğiz. 2 ile $2+dt$ arasındaki küçük mesafe değişimi $s(2+dt) - s(2)$, bölü $dt$: $$ \frac{s(2+dt) - s(2)}{dt} = \frac{(2+dt)^3 - 2^3}{dt} $$ Üstteki ifadeyi cebirsel olarak açalım: $$ (2+dt)^3 = 2^3 + 3 \cdot 2^2 \, dt + 3 \cdot 2 \, dt^2 + dt^3 $$ Karmaşık görünüyor ama sadeleşiyor. $2^3$ terimleri (açılımdaki ile çıkarılan) **birbirini götürür**. Geriye kalan her terimde bir $dt$ var; paydadaki $dt$ ile sadeleşince: $$ \frac{ds}{dt} = 3 \cdot 2^2 + 3 \cdot 2 \, dt + dt^2 \;\xrightarrow{\; dt \to 0 \;}\; 3 \cdot 2^2 = 12 $$ ```{python} #| label: fig-acilim-sadelesme #| fig-cap: "$(2+dt)^3$ açılımının terimleri: ana terim $3 \\cdot 2^2 = 12$ (mavi), $dt$ ile orantılı düzeltme (turuncu), $dt^2$ ile orantılı çok küçük artık (kırmızı). $dt \\to 0$ iken yalnızca 12 hayatta kalır." #| fig-width: 9 #| fig-height: 5 dts = np.logspace(-4, 0, 50) terim_sabit = 3 * 2**2 * np.ones_like(dts) # 12 terim_dt = 3 * 2 * dts # 6*dt terim_dt2 = dts**2 # dt^2 toplam = terim_sabit + terim_dt + terim_dt2 fig, ax = plt.subplots(figsize=(9, 5)) ax.semilogx(dts, terim_sabit, '-', color='#1e3a8a', linewidth=2.5, label='$3 \\cdot 2^2 = 12$ (sabit, hayatta kalır)') ax.semilogx(dts, terim_sabit + terim_dt, '-', color='#c2410c', linewidth=2, label='+ $6\\,dt$ ($dt \\to 0$\'da kaybolur)') ax.semilogx(dts, toplam, 'o-', color='#dc2626', markersize=5, linewidth=1.5, label='+ $dt^2$ (ihmal edilebilir)') ax.axhline(12, color='#0f172a', linestyle='--', linewidth=1, alpha=0.5) ax.set_xlabel('$dt$', fontsize=12) ax.set_ylabel('$\\frac{ds}{dt}$ yaklaşımı', fontsize=12) ax.set_title(r'$dt \to 0$ iken oran → $12 = 3 \cdot 2^2$', fontsize=12) ax.legend(fontsize=10, loc='upper left') ax.grid(True, which='both', alpha=0.3) ax.invert_xaxis() plt.tight_layout() plt.show() ``` $dt \to 0$ sorduğumuzda, içinde $dt$ olan terimleri **tamamen yok sayabiliriz**. Geriye tertemiz $3 \cdot 2^2 = 12$ kalır: bu, $t = 2$ noktasındaki teğet doğrunun eğimidir. $t = 2$'de özel bir şey yok; genel olarak: $$ \frac{d}{dt}\, t^3 = 3t^2 $$ > *"the derivative of t cubed as a function of t is 3 times t squared."* — Grant, 13:10 İşte calculus'un neden bu kadar işe yaradığının kalbi: belirli bir $dt$ için ifade bir karmaşaydı; ama oranın $dt \to 0$ iken **yaklaştığı** değere bakınca, o karmaşanın çoğunu yok sayabiliyoruz. > *"that right there is kind of the heart of why calculus becomes useful."* — Grant, 14:13 ::: {.callout-tip title="Builder Notu — Dual Sayılar"} $dt \to 0$ iken $dt^2$ ve $dt^3$ terimlerini atmak tesadüf değil — **forward-mode autodiff** bunu birebir mekanikleştirir. **Dual sayılar** $a + b\varepsilon$ (burada $\varepsilon^2 = 0$ tanımlıdır) ile çalışırsın: $(2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon$, çünkü $\varepsilon^2$ ve sonrası sıfır. $\varepsilon$'un katsayısı (12) tam olarak türevdir. Yani Grant'ın "$dt$'li yüksek terimleri yok say" hilesi, modern otomatik türevin cebirsel temelidir; PyTorch/JAX bunu sembolik açılım yapmadan, sayısal fark hatası olmadan yapar. ::: ## Paradoksun Çözümü: En İyi Sabit Yaklaşım {#sec-paradoks-cozum} Somut bir türev ($3t^2$) elimizde olunca, "anlık hız" yanılsamasına fazla inanırsak çıkan paradoksu görebiliriz. $t^3$ mesafe fonksiyonuyla giden arabayı düşün ve başlangıç anına, $t = 0$'a bak. Araba o anda hareket ediyor mu? Bir yandan: hızı türevle hesaplarız, $3t^2$, ve $t = 0$ için bu $0$ çıkar. Teğet doğru tam yatay; yani "anlık hız" 0, demek ki hareket etmiyor. $$ 3t^2 \big|_{t=0} = 3 \cdot 0^2 = 0 $$ Öte yandan: eğer $t = 0$'da hareket etmiyorsa, ne zaman hareket etmeye başlıyor? Bir an dur ve düşün. > *"do you see the paradox? The issue is that the question makes no sense."* — Grant, 15:24 Çözüm: soru anlamsız, çünkü "bir anda değişim" fikrine atıfta bulunuyor ama öyle bir şey yok — türevin ölçtüğü o değil. Bir mesafe fonksiyonunun türevinin 0 olması demek, arabanın o nokta civarındaki hızının **en iyi sabit yaklaşımının** 0 m/s olması demektir. Gerçek bir zaman aralığına bakarsan (0 ile 0,1 s arası) araba **hareket eder**: $0{,}001$ m gider, yani ortalama hız $0{,}01$ m/s. Daha küçük dürtüşler için bu oran 0'a yaklaşır — ama bu, arabanın durağan olduğu anlamına gelmez; 0 sabit hızıyla yaklaştırmak sadece bir yaklaşımdır. Bu yüzden birisi türeve "anlık değişim oranı" dediğinde — özünde çelişkili bu ifade — onu **"değişim oranının en iyi sabit yaklaşımı"** için kavramsal bir kısaltma olarak düşün. > *"think of that as a conceptual shorthand for the best constant approximation for rate of change."* — Grant, 16:33 ::: {.callout-tip title="Builder Notu — Kritik Noktalar"} "Türev = en iyi sabit/lineer yaklaşım" bakışı, optimizasyonun temelidir. Gradient descent, kayıp yüzeyini her noktada bir teğet düzlemle (birinci derece) yaklaştırıp o yönde adım atar. Türevin 0 olması (kritik nokta) ise "yerel olarak düz" demektir — minimum, maksimum veya eyer noktası. $t = 0$'daki düz teğet, bir loss minimumundaki sıfır gradyanın birebir analoğudur: gradyan 0 olması, modelin "durduğu" anlamına gelmez, yalnızca o noktadaki en iyi lineer yaklaşımın sabit olduğunu söyler. ::: ## Bu Dersin Özeti {#sec-ozet-2} 1. Türev sık sık "anlık değişim oranı" diye anılır, ama bu bir oksimorondur: değişim iki ayrı nokta gerektirir, tek bir anda değişime yer yoktur. 2. Araba örneği: mesafe $s(t)$, hız = $ds/dt$. Mesafe grafiği dikleştiğinde hız yüksektir. 3. Tek anda hız anlamsızdır; gerçek araba paradoksu yan geçer — $t$ ile $t+dt$ arasındaki mesafeyi ölçüp $dt$'ye böler. 4. $ds/dt$, iki yakın nokta arasındaki eğimdir; türev ise $dt \to 0$ iken bu oranın yaklaştığı değer = o noktadaki **teğet doğrunun eğimi**. 5. $dt$ ne sonsuz küçüktür ne de 0'dır; yalnızca 0'a yaklaşır. (0 koymak sıfıra bölme olurdu.) 6. $d(t^3)/dt = 3t^2$: $(2+dt)^3$ açılımında $dt$'li terimler $dt \to 0$'da kaybolur. Bu sadeleşme, calculus'un neden işe yaradığının kalbidir. 7. Türev, "en iyi sabit yaklaşım"dır; $t = 0$'da $3 \cdot 0^2 = 0$ olması, arabanın gerçekten durduğu anlamına gelmez. ::: {.callout-important title="Tek bir cümle"} Türev, $ds/dt$ fark oranının $dt \to 0$ iken yaklaştığı değerdir — geometrik olarak teğet doğrunun eğimi, kavramsal olarak "anlık" değil, bir nokta civarında değişim oranının en iyi sabit yaklaşımı. ::: ## Kontrol Soruları {#sec-sorular-2} ::: {.callout-note collapse="true" title="Soru 1: s(t) = t² için t = 3'te türevi, açılım yöntemiyle (dt → 0) bul."} **Cevap:** $[s(3+dt) - s(3)] / dt = [(3+dt)^2 - 3^2] / dt = [9 + 6\,dt + dt^2 - 9] / dt = (6\,dt + dt^2)/dt = 6 + dt$. $dt \to 0$ iken bu $6$'ya gider. Yani $d(t^2)/dt = 2t$ ve $t = 3$'te değer $2 \cdot 3 = 6$. (Genel kuvvet kuralı: $d(t^n)/dt = n \cdot t^{n-1}$.) ::: ::: {.callout-note collapse="true" title="Soru 2: 'Türev, dt'ye 0 koymaktır' demek neden yanlış?"} **Cevap:** $dt$'ye 0 koyarsan pay da payda da 0 olur: $0/0$ belirsizdir, tanımsız. Türev, oranın $dt = 0$'daki **değeri** değil, $dt \to 0$ iken **yaklaştığı limittir**. $dt$ daima sonlu ve sıfır-olmayan kalır; biz yalnızca giderek küçülen dürtüşlerde oranın hangi sayıya yaklaştığına bakarız. Bu ayrım, paradokstan kaçmanın anahtarıdır. ::: ::: {.callout-note collapse="true" title="Soru 3: Bir fonksiyonun bir noktadaki türevi 0 ise, fonksiyon o noktada 'durağan/sabit' midir?"} **Cevap:** Hayır. Türevin 0 olması, yalnızca o nokta civarındaki en iyi sabit (lineer) yaklaşımın eğiminin 0 olduğunu söyler. Fonksiyon hâlâ değişiyor olabilir — $t^3$ fonksiyonu $t = 0$'da türevi 0'dır ama araba durağan değildir; 0,1 s'de 0,001 m gider. Türevin 0 olduğu nokta bir **kritik noktadır**: yerel minimum, maksimum ya da eyer noktası olabilir. ::: ::: {.callout-note collapse="true" title="Soru 4: (Builder) Forward-mode autodiff, dual sayılarla d(t³)/dt'yi t = 2'de nasıl verir?"} **Cevap:** Dual sayı $2 + \varepsilon$ al ($\varepsilon^2 = 0$ tanımlı). $(2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon$ (çünkü $\varepsilon^2$ ve sonrası sıfır). $\varepsilon$'un katsayısı 12, tam olarak türevdir ($3 \cdot 2^2 = 12$). Bu, Grant'ın "$dt^2$ ve sonrası terimleri at" hilesinin birebir cebirsel mekaniğidir; PyTorch/JAX türevleri ne sembolik açılımla ne de sayısal fark hatasıyla, bu dual-sayı yapısıyla (ileri mod) hesaplar. ::: ## Egzersizler {#sec-egzersizler-2} **Egzersiz 1.** Türevin limit tanımını kullanarak $d(t^2)/dt$'yi **genel** $t$ için türet: $[(t+dt)^2 - t^2] / dt$ ifadesini sadeleştir ve $dt \to 0$ limitini al. Sonucun $2t$ çıktığını göster. **Egzersiz 2.** $(t+dt)^4$ açılımını yaz (binom). $d(t^4)/dt$'yi, $dt$'li terimleri $dt \to 0$'da atarak hesapla ve kuvvet kuralının ($4t^3$) doğrulandığını göster. **Egzersiz 3.** *(Türev her zaman var mı?)* $f(t) = |t|$ fonksiyonunu $t = 0$'da incele. $[f(0+dt) - f(0)] / dt$ oranını $dt > 0$ ve $dt < 0$ için ayrı ayrı hesapla. Sağdan ve soldan farklı değerler ($+1$ ve $-1$) çıktığı için limit yoktur → $f$, $t = 0$'da **türevlenemez** (bir köşe). Sonuç: her fonksiyon her noktada türevlenebilir değildir. **Egzersiz 4.** *(Python — görsel doğrulama)* $s(t) = t^3$ için sayısal türevi $[s(t+h) - s(t)] / h$ ile hesapla; $h$ küçüldükçe $t = 2$'de $3 \cdot 2^2 = 12$'ye yakınsadığını göster. $h$ çok küçülünce kayan-nokta yuvarlama hatasının nasıl büyüdüğüne dikkat et (autodiff'in sonlu farktan neden üstün olduğunun kanıtı). ```{python} #| label: fig-fd-uegrisi #| fig-cap: "Sonlu fark hatasının ünlü U-eğrisi: $h$ büyükken kesme hatası (truncation), $h$ çok küçükken yuvarlama hatası (floating-point) baskın. Tatlı nokta ~$10^{-5}$ civarında." #| fig-width: 9 #| fig-height: 5 import numpy as np import matplotlib.pyplot as plt def s(t): return t**3 t0 = 2.0 teorik = 3 * t0**2 print("teorik turev 3*t^2 =", teorik) for h in [1, 0.5, 0.1, 0.01, 1e-4, 1e-6, 1e-9, 1e-12]: yak = (s(t0 + h) - s(t0)) / h print(f"h={h:8.0e} yaklasik={yak:.8f} hata={abs(yak - teorik):.3e}") hs = np.logspace(0, -14, 60) hata = np.abs((s(t0 + hs) - s(t0)) / hs - teorik) fig, ax = plt.subplots(figsize=(9, 5)) ax.loglog(hs, hata, 'o-', color='#dc2626', markersize=6, linewidth=1.5, markerfacecolor='#fb923c', markeredgecolor='#7c2d12') ax.axvline(1e-8, color='#1e3a8a', linestyle='--', linewidth=1.2, alpha=0.6, label='~optimal $h$') ax.set_xlabel('adım $h$', fontsize=12) ax.set_ylabel('|sayısal − teorik|', fontsize=12) ax.set_title('Sonlu fark hatasının U-eğrisi: $h$ çok küçükse yuvarlama, çok büyükse kesme', fontsize=11) ax.grid(True, which='both', alpha=0.3) ax.legend(fontsize=10) plt.tight_layout() plt.show() ``` **Egzersiz 5.** *(Sonraki dersin habercisi)* $d(t^2)/dt = 2t$ ve $d(t^3)/dt = 3t^2$ sonuçlarını cebir yapmadan düşün: kenarı $t$ olan bir karenin alanı $t^2$, kenarı $dt$ büyürse alan ne kadar artar? Kenarı $t$ olan bir küpün hacmi $t^3$, kenar $dt$ büyürse hacim ne kadar artar? Ders 3 bu türevleri tam olarak böyle — kareyi ve küpü büyüterek, **geometrik** olarak — türetecek. ## Sonraki Ders İçin Hazırlık {#sec-sonraki-2} **Ders 3: Geometriyle Türev Formülleri** Ders 2'de bir türevi ($t^3 \to 3t^2$) cebirsel olarak, gözle görülür bir karmaşadan geçerek türettik. Ders 3'te Grant aynı formülleri **görsel** olarak türetiyor: $x^2$ bir karenin alanı, $x^3$ bir küpün hacmi olarak düşünülünce, türev *"kenarı azıcık büyütünce alan/hacim ne kadar artar?"* sorusuna dönüşür ve formüller diyagramdan kendiliğinden çıkar. **Ana konular:** - $d(x^2)/dx = 2x$'in kare-büyütme diyagramıyla türetimi. - $d(x^3)/dx = 3x^2$ ve genel kuvvet kuralı, geometrik olarak. - $1/x$ ve $\sin(x)$ gibi fonksiyonların türevleri için görsel sezgiler. ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-2} | Kavram | Tanım | Grant'ta | |--------|-------|----------| | **Türevin paradoksu** | "Anlık değişim oranı" oksimorondur; değişim iki nokta ister | 0m35 | | **Mesafe fonksiyonu $s(t)$** | Zamana karşı kat edilen yol; grafiğin eğimi = hız | 1m46 | | **$ds/dt$ (fark oranı)** | İki yakın nokta arasındaki rise/run eğimi | 5m51 | | **Türev = limit** | $dt \to 0$ iken $ds/dt$ oranının yaklaştığı değer | 8m02 | | **Teğet doğru eğimi** | Türevin geometrik anlamı (tek noktada) | 8m33 | | **$dt$ sonlu, sıfır değil** | Türev, $dt$'ye 0 koymak değil; 0'a yaklaşmaktır | 9m03 | | **$d(t^3)/dt = 3t^2$** | $(2+dt)^3$ aç, $dt$'li terimleri at → $3 \cdot 2^2$ | 13m10 | | **Kuvvet kuralı** | $d(t^n)/dt = n \cdot t^{n-1}$ | 13m04 | | **En iyi sabit yaklaşım** | "Anlık oran" yerine türevin doğru kavramı | 16m33 | ## ML Bağlantıları Özeti {#sec-ml-2} ::: {.callout-tip title="7 köprü"} 1. **Türev = fark oranının limiti** → sayısal türev ve gradient checking ($[L(w+\varepsilon) - L(w)]/\varepsilon$ ile gradyan doğrulama). 2. **Teğet = en iyi lineer yaklaşım** → gradient, kayıp yüzeyinin yerel lineer modeli; learning rate, bu yaklaşımın geçerli kaldığı komşuluğu belirler. 3. **"$dt^2$ terimini at"** → forward-mode autodiff dual sayıları ($\varepsilon^2 = 0$); türevin cebirsel mekaniği, sembolik açılım veya sayısal hata olmadan. 4. **Kuvvet kuralı $d(t^n)/dt = n \cdot t^{n-1}$** → autodiff kural tablosunun temel girdileri (her primitif işlemin yerel türevi tanımlı). 5. **Türev 0 = kritik nokta** → loss yüzeyinde minimum/maksimum/eyer; sıfır gradyan "yerel olarak düz" demektir, "durağan" değil. 6. **"Anlık değil, sonlu $dt$"** → ayrıklaştırma: Euler çözücü adımı, SGD adımı; sürekli türev bunların $dt \to 0$ limiti. 7. **Türevlenemezlik ($|t|$ köşesi)** → ReLU'nun 0'daki köşesi; pratikte alt-gradyan (subgradient) kullanılır ve tek bir noktadaki kırılma optimizasyonu nadiren bozar. ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} Türev, "bir anda değişim" değildir — öyle bir şey yok. Türev, $ds/dt$ fark oranının $dt \to 0$ iken yaklaştığı limittir: geometrik olarak teğet doğrunun eğimi, kavramsal olarak bir nokta civarındaki değişim oranının en iyi sabit yaklaşımı. Paradoks, soruyu yanlış sormaktan doğar. :::

3 Türevin Paradoksu

3.1 Bu Derste Ne Var?

3.2 Hedef ve Paradoks: “Anlık Değişim Oranı” Bir Oksimoron

3.3 Araba Örneği: Mesafe ve Hız

3.4 Tek Anda Hız Neden Anlamsız?

3.5 \(ds/dt\): İki Yakın Nokta Arasındaki Eğim

3.6 Worked Example: \(d(t^3)/dt = 3t^2\)

3.7 Paradoksun Çözümü: En İyi Sabit Yaklaşım

3.8 Bu Dersin Özeti

3.9 Kontrol Soruları

3.10 Egzersizler

3.11 Sonraki Ders İçin Hazırlık

3.12 Anahtar Kavramlar (Cheat Sheet)

3.13 ML Bağlantıları Özeti