3  Türevin Paradoksu

Anlık değişim oranı, dt → 0 ve teğet doğrunun eğimi

NotBölüm bilgisi

3.1 Bu Derste Ne Var?

Ders 1’de calculus’un üç fikrine — integral, türev, terslik — yukarıdan baktık. Bu derste türevi yakından tanımlıyoruz. Ama bir tuzak var: türev genelde “anlık değişim oranı” diye tanımlanır — oysa Grant’a göre bu ifade bir oksimorondur. Değişim iki nokta arasında olur; tek bir ana kilitlenince değişime yer kalmaz. Calculus’un kurucularının zekası, bu paradoksu \(dt\)’yi sıfıra yaklaştırarak (ama sıfır yapmadan) zarifçe atlatmakta.

Üç ana fikir:

  1. Türev = \(ds/dt\) oranının, \(dt \to 0\) iken yaklaştığı değer. Belirli bir \(dt\) için değil, limitinde.
  2. Geometrik anlam: bir noktadaki teğet doğrunun eğimi.
  3. \(d(t^3)/dt = 3t^2\) — ve “\(dt\)’li terimleri yok say” hilesi, calculus’u kullanışlı yapan şeydir.
flowchart LR
    A["'Anlık değişim oranı'<br/>(oksimoron)"] --> B["İki yakın nokta:<br/>ds/dt fark oranı"]
    B --> C["dt → 0 limit"]
    C --> D["Teğet doğrunun eğimi"]
    D --> E["d(t³)/dt = 3t²<br/>(dt'li terimler atılır)"]
    E --> F["En iyi sabit yaklaşım<br/>(anlık değil)"]

    style A fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    style C fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    style F fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
Şekil 3.1: Paradoksun çözümünün yol haritası: oksimorondan limite, limitten teğet eğimine.

“it’s common for people to say that the derivative measures an instantaneous rate of change, but … that phrase is actually an oxymoron.” — Grant, 0:35

İpucuBuilder Notu — ML Köprüleri
  • Türev = fark oranının limiti → sayısal türev ve gradient checking: backprop gradyanını, \([f(w+\varepsilon) - f(w)]/\varepsilon\) sonlu farkıyla doğrularsın.
  • Teğet = en iyi yerel doğrusal yaklaşım → birinci-derece Taylor; gradient, bir noktada fonksiyonun en iyi lineer modelidir.
  • \(dt^2\) terimini yok say” hilesi → forward-mode autodiff’in dual sayıları (\(a + b\varepsilon\), \(\varepsilon^2 = 0\)): yüksek dereceli terimleri tam olarak düşürür. Türevin cebirsel mekaniği birebir budur.
  • “Anlık değil, en iyi sabit yaklaşım” → pratikte hep sonlu \(dt\) (Euler adımı, learning rate); sürekli türev bunun limiti.
  • Kuvvet kuralı \(d(t^n)/dt = n \cdot t^{n-1}\) → otomatik türev kural tablosunun ilk girdisi.

3.2 Hedef ve Paradoks: “Anlık Değişim Oranı” Bir Oksimoron

Amaç basit: türevin ne olduğunu açıklamak. Ama konu incelikli ve dikkatsiz olursan paradokslarla dolu. Bu yüzden ikincil hedef, bu paradoksları görmek ve onlardan nasıl kaçınacağını anlamak.

Sık duyarsın: “türev, anlık değişim oranını ölçer.” Oysa düşününce bu ifade kendi içinde çelişkili. Değişim, ayrı zaman noktaları arasında olan bir şeydir; kendini tek bir ana körleştirdiğinde, değişime hiç yer kalmaz. Yine de “anlık hız” demek istediğimiz gerçek bir sezgi var — ve calculus’un kurucuları bu sezgiyi, mantıklı bir matematik parçasıyla (türevle) yakaladılar.

“if that feels strange and paradoxical, good! You’re grappling with the same conflicts that the fathers of calculus did.” — Grant, 4:14

İpucuBuilder Notu — Ayrıklaştırma

Bu paradoks ML’de ayrıklaştırma (discretization) olarak karşına çıkar. Bir optimizasyon adımı ya da bir ODE çözücü, “anlık” türevi asla doğrudan kullanmaz; hep sonlu bir adım (\(dt\), learning rate) alır. Sürekli türev, bu sonlu adımların \(dt \to 0\) limitidir. “Anlık oran” matematiksel bir idealizasyon; pratikte daima yaklaşık, sonlu bir fark hesaplarsın.

3.3 Araba Örneği: Mesafe ve Hız

Merkezî örneğimiz: bir araba A noktasından başlıyor, hızlanıyor, sonra yavaşlayıp 100 metre ötedeki B noktasında duruyor — tüm bunlar 10 saniyede oluyor.

Bu hareketi grafikleyebiliriz: dikey eksen kat edilen mesafe, yatay eksen zaman. Her \(t\) anında grafiğin yüksekliği, arabayı o ana kadar ne kadar yol gittiğini söyler. Bu mesafe fonksiyonuna \(s(t)\) diyelim (\(d\) harfi calculus’ta zaten başka bir işte çalışıyor).

Başlangıçta eğri sığ: araba yavaş, ilk saniyede az yol alır. Orta bölümde hızlanır, her saniye daha çok yol — grafiğin eğimi diklesir. Sona doğru yavaşlayınca eğri yine sığlaşır.

Aynı hareketin hızını (m/s) zamana karşı çizersek, bir tepe (bump) elde ederiz: başta küçük, ortada maksimum, sonda yine sıfıra iner. Bu iki eğri birbiriyle ilişkili — mesafe fonksiyonunu değiştirirsen hız fonksiyonu da değişir. Anlamak istediğimiz tam olarak bu ilişki: hız, mesafe-zaman fonksiyonuna nasıl bağlı?

İpucuBuilder Notu — Kümülatif ↔︎ Anlık

\(s(t)\) (biriken nicelik) ile hız (onun değişim oranı) ilişkisi, Ders 1’deki integral↔︎türev çiftinin somut hâli. ML’de bunun eşdeğeri: kümülatif bir nicelik (toplam ödül, biriken kayıp) ile onun anlık değişimi (adım ödülü, gradyan) arasındaki bağ. Birini bilince diğerini türev/integral ile geçersin.

3.4 Tek Anda Hız Neden Anlamsız?

“Hız” kelimesinin burada tam ne demek olduğunu eleştirel düşünelim. Sezgisel olarak bir andaki hız, arabanın o anda hız göstergesinde (speedometer) gösterdiği şeydir; ve mesafe fonksiyonu dik olduğunda hızın yüksek olması mantıklı görünür.

Ama tuhaf olan şu: tek bir anda hız anlamsızdır. Sana bir arabanın tek bir anlık fotoğrafını gösterip “ne kadar hızlı gidiyor?” diye sorsam, söyleyemezsin. İhtiyacın olan şey, karşılaştıracak iki ayrı zaman noktası: mesafedeki değişimi zamandaki değişime bölersin. Hız zaten budur — birim zamanda kat edilen mesafe.

İşte paradoks: tek tek zaman noktalarına bir hız atamak istiyoruz, ama hızı hesaplamak iki ayrı zaman noktasını karşılaştırmayı gerektiriyor.

Gerçek dünyada araba bunu nasıl atlatır? 3. saniyede hız göstergesi, arabanın çok küçük bir zamanda gittiği yolu ölçer — diyelim 3 ile 3,01 saniye arası — ve bu küçük mesafeyi küçük zamana (0,01 s) böler. Yani fiziksel araba paradoksu yan geçer: tek bir anda değil, çok küçük bir zaman aralığında hız hesaplar.

“a physical car just side-steps the paradox … it computes speed during a very small amount of time.” — Grant, 5:08

İpucuBuilder Notu — Finite Difference

Bu “iki yakın nokta al, oranı hesapla” fikri, sayısal türevin (finite difference) ta kendisidir. Bir gradyanı elle doğrulamak istediğinde (gradient checking) tam bunu yaparsın: \([L(w+\varepsilon) - L(w)] / \varepsilon\). Otomatik türev (autodiff) ise bu oranı sonlu \(\varepsilon\) ile değil, cebirsel limitle hesaplar — sonraki bölümde göreceğimiz gibi bu hem daha hızlı hem daha doğrudur.

3.5 \(ds/dt\): İki Yakın Nokta Arasındaki Eğim

Bu küçük zaman farkına \(dt\) diyelim (\(0{,}01\) gibi düşün), ve onun yol açtığı küçük mesafe farkına \(ds\). O hâlde bir andaki hız, yaklaşık olarak \(ds/dt\) — küçük mesafe değişiminin küçük zaman değişimine oranı.

Grafiksel olarak: \(t = 3\) civarında mesafe-zaman grafiğine yakınlaş. \(dt\) sağa doğru küçük bir adım (zaman yatay eksende), \(ds\) ise grafiğin yüksekliğindeki buna karşılık gelen değişim. Yani \(ds/dt\), grafikteki birbirine çok yakın iki nokta arasındaki yükselme/yatay (rise/run) eğimidir.

\[ \frac{ds}{dt} = \frac{s(t + dt) - s(t)}{dt} \]

\(t = 3\)’te özel bir şey yok; bunu her \(t\) için yapabiliriz, böylece \(ds/dt\)’yi \(t\)’nin bir fonksiyonu — hız fonksiyonu — olarak görürüz.

İşte kritik nokta: saf matematikteki türev, belirli bir \(dt\) için bu \(ds/dt\) oranı değildir. Türev, \(dt\) giderek küçülürken (0’a yaklaşırken) bu oranın yaklaştığı değerdir.

\[ \frac{ds}{dt} = \lim_{dt \to 0} \frac{s(t + dt) - s(t)}{dt} \]

Bunun çok güzel bir görsel anlamı var: \(dt \to 0\) iken iki nokta birbirine yaklaşır ve onlardan geçen doğrunun eğimi, grafiğe o tek noktada teğet olan doğrunun eğimine yakınsar.

“the true honest-to-goodness pure math derivative … is equal to the slope of a line tangent to the graph at a single point.” — Grant, 8:33

İnce ama hayati nokta: türev, \(dt\) sonsuz küçük olduğunda olan şey değildir (öyle bir şey yok); \(dt\)’ye 0 koymak da değildir (sıfıra bölme olurdu). \(dt\) daima sonlu, sıfır-olmayan bir değerdir — yalnızca 0’a yaklaşır.

“this dt is always a finitely small non-zero value, it’s just that it approaches 0.” — Grant, 9:03

Bu yüzden bu eğimi “anlık değişim oranı” değil, “bir nokta civarında değişim oranının en iyi sabit yaklaşımı” olarak düşünmek en sağlıklısıdır.

İpucuBuilder Notu — Yerel Lineer Model

Teğet doğru = fonksiyonun o noktadaki en iyi doğrusal yaklaşımı (birinci dereceden Taylor). ML’de gradient tam bu rolü oynar: yüksek boyutlu kayıp yüzeyini, bulunduğun noktada bir hiper-düzlemle (lineer model) yaklaştırır. Gradient descent her adımda bu yerel doğrusal modele güvenir; adım çok büyük olursa yaklaşım bozulur — bu yüzden learning rate küçük tutulur.

3.6 Worked Example: \(d(t^3)/dt = 3t^2\)

Garip ama gerçek: “\(dt\) küçülürken oran neye yaklaşır?” diye sormak hesabı zorlaştırmaz, kolaylaştırır. Görelim.

Mesafe fonksiyonun tam olarak \(t^3\) olsun (1 saniyede \(1^3 = 1\) m, 2 saniyede \(2^3 = 8\) m, …). Hızı, yani \(ds/dt\)’yi, belirli bir anda — diyelim \(t = 2\)’de — hesaplamak isteyelim. Şimdilik \(dt\)’yi somut bir büyüklük olarak tutalım; birazdan 0’a göndereceğiz. 2 ile \(2+dt\) arasındaki küçük mesafe değişimi \(s(2+dt) - s(2)\), bölü \(dt\):

\[ \frac{s(2+dt) - s(2)}{dt} = \frac{(2+dt)^3 - 2^3}{dt} \]

Üstteki ifadeyi cebirsel olarak açalım:

\[ (2+dt)^3 = 2^3 + 3 \cdot 2^2 \, dt + 3 \cdot 2 \, dt^2 + dt^3 \]

Karmaşık görünüyor ama sadeleşiyor. \(2^3\) terimleri (açılımdaki ile çıkarılan) birbirini götürür. Geriye kalan her terimde bir \(dt\) var; paydadaki \(dt\) ile sadeleşince:

\[ \frac{ds}{dt} = 3 \cdot 2^2 + 3 \cdot 2 \, dt + dt^2 \;\xrightarrow{\; dt \to 0 \;}\; 3 \cdot 2^2 = 12 \]

\(dt \to 0\) sorduğumuzda, içinde \(dt\) olan terimleri tamamen yok sayabiliriz. Geriye tertemiz \(3 \cdot 2^2 = 12\) kalır: bu, \(t = 2\) noktasındaki teğet doğrunun eğimidir. \(t = 2\)’de özel bir şey yok; genel olarak:

\[ \frac{d}{dt}\, t^3 = 3t^2 \]

“the derivative of t cubed as a function of t is 3 times t squared.” — Grant, 13:10

İşte calculus’un neden bu kadar işe yaradığının kalbi: belirli bir \(dt\) için ifade bir karmaşaydı; ama oranın \(dt \to 0\) iken yaklaştığı değere bakınca, o karmaşanın çoğunu yok sayabiliyoruz.

“that right there is kind of the heart of why calculus becomes useful.” — Grant, 14:13

İpucuBuilder Notu — Dual Sayılar

\(dt \to 0\) iken \(dt^2\) ve \(dt^3\) terimlerini atmak tesadüf değil — forward-mode autodiff bunu birebir mekanikleştirir. Dual sayılar \(a + b\varepsilon\) (burada \(\varepsilon^2 = 0\) tanımlıdır) ile çalışırsın: \((2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon\), çünkü \(\varepsilon^2\) ve sonrası sıfır. \(\varepsilon\)’un katsayısı (12) tam olarak türevdir. Yani Grant’ın “\(dt\)’li yüksek terimleri yok say” hilesi, modern otomatik türevin cebirsel temelidir; PyTorch/JAX bunu sembolik açılım yapmadan, sayısal fark hatası olmadan yapar.

3.7 Paradoksun Çözümü: En İyi Sabit Yaklaşım

Somut bir türev (\(3t^2\)) elimizde olunca, “anlık hız” yanılsamasına fazla inanırsak çıkan paradoksu görebiliriz. \(t^3\) mesafe fonksiyonuyla giden arabayı düşün ve başlangıç anına, \(t = 0\)’a bak. Araba o anda hareket ediyor mu?

Bir yandan: hızı türevle hesaplarız, \(3t^2\), ve \(t = 0\) için bu \(0\) çıkar. Teğet doğru tam yatay; yani “anlık hız” 0, demek ki hareket etmiyor.

\[ 3t^2 \big|_{t=0} = 3 \cdot 0^2 = 0 \]

Öte yandan: eğer \(t = 0\)’da hareket etmiyorsa, ne zaman hareket etmeye başlıyor? Bir an dur ve düşün.

“do you see the paradox? The issue is that the question makes no sense.” — Grant, 15:24

Çözüm: soru anlamsız, çünkü “bir anda değişim” fikrine atıfta bulunuyor ama öyle bir şey yok — türevin ölçtüğü o değil. Bir mesafe fonksiyonunun türevinin 0 olması demek, arabanın o nokta civarındaki hızının en iyi sabit yaklaşımının 0 m/s olması demektir. Gerçek bir zaman aralığına bakarsan (0 ile 0,1 s arası) araba hareket eder: \(0{,}001\) m gider, yani ortalama hız \(0{,}01\) m/s. Daha küçük dürtüşler için bu oran 0’a yaklaşır — ama bu, arabanın durağan olduğu anlamına gelmez; 0 sabit hızıyla yaklaştırmak sadece bir yaklaşımdır.

Bu yüzden birisi türeve “anlık değişim oranı” dediğinde — özünde çelişkili bu ifade — onu “değişim oranının en iyi sabit yaklaşımı” için kavramsal bir kısaltma olarak düşün.

“think of that as a conceptual shorthand for the best constant approximation for rate of change.” — Grant, 16:33

İpucuBuilder Notu — Kritik Noktalar

“Türev = en iyi sabit/lineer yaklaşım” bakışı, optimizasyonun temelidir. Gradient descent, kayıp yüzeyini her noktada bir teğet düzlemle (birinci derece) yaklaştırıp o yönde adım atar. Türevin 0 olması (kritik nokta) ise “yerel olarak düz” demektir — minimum, maksimum veya eyer noktası. \(t = 0\)’daki düz teğet, bir loss minimumundaki sıfır gradyanın birebir analoğudur: gradyan 0 olması, modelin “durduğu” anlamına gelmez, yalnızca o noktadaki en iyi lineer yaklaşımın sabit olduğunu söyler.

3.8 Bu Dersin Özeti

  1. Türev sık sık “anlık değişim oranı” diye anılır, ama bu bir oksimorondur: değişim iki ayrı nokta gerektirir, tek bir anda değişime yer yoktur.
  2. Araba örneği: mesafe \(s(t)\), hız = \(ds/dt\). Mesafe grafiği dikleştiğinde hız yüksektir.
  3. Tek anda hız anlamsızdır; gerçek araba paradoksu yan geçer — \(t\) ile \(t+dt\) arasındaki mesafeyi ölçüp \(dt\)’ye böler.
  4. \(ds/dt\), iki yakın nokta arasındaki eğimdir; türev ise \(dt \to 0\) iken bu oranın yaklaştığı değer = o noktadaki teğet doğrunun eğimi.
  5. \(dt\) ne sonsuz küçüktür ne de 0’dır; yalnızca 0’a yaklaşır. (0 koymak sıfıra bölme olurdu.)
  6. \(d(t^3)/dt = 3t^2\): \((2+dt)^3\) açılımında \(dt\)’li terimler \(dt \to 0\)’da kaybolur. Bu sadeleşme, calculus’un neden işe yaradığının kalbidir.
  7. Türev, “en iyi sabit yaklaşım”dır; \(t = 0\)’da \(3 \cdot 0^2 = 0\) olması, arabanın gerçekten durduğu anlamına gelmez.
ÖnemliTek bir cümle

Türev, \(ds/dt\) fark oranının \(dt \to 0\) iken yaklaştığı değerdir — geometrik olarak teğet doğrunun eğimi, kavramsal olarak “anlık” değil, bir nokta civarında değişim oranının en iyi sabit yaklaşımı.

3.9 Kontrol Soruları

Cevap: \([s(3+dt) - s(3)] / dt = [(3+dt)^2 - 3^2] / dt = [9 + 6\,dt + dt^2 - 9] / dt = (6\,dt + dt^2)/dt = 6 + dt\). \(dt \to 0\) iken bu \(6\)’ya gider. Yani \(d(t^2)/dt = 2t\) ve \(t = 3\)’te değer \(2 \cdot 3 = 6\). (Genel kuvvet kuralı: \(d(t^n)/dt = n \cdot t^{n-1}\).)

Cevap: \(dt\)’ye 0 koyarsan pay da payda da 0 olur: \(0/0\) belirsizdir, tanımsız. Türev, oranın \(dt = 0\)’daki değeri değil, \(dt \to 0\) iken yaklaştığı limittir. \(dt\) daima sonlu ve sıfır-olmayan kalır; biz yalnızca giderek küçülen dürtüşlerde oranın hangi sayıya yaklaştığına bakarız. Bu ayrım, paradokstan kaçmanın anahtarıdır.

Cevap: Hayır. Türevin 0 olması, yalnızca o nokta civarındaki en iyi sabit (lineer) yaklaşımın eğiminin 0 olduğunu söyler. Fonksiyon hâlâ değişiyor olabilir — \(t^3\) fonksiyonu \(t = 0\)’da türevi 0’dır ama araba durağan değildir; 0,1 s’de 0,001 m gider. Türevin 0 olduğu nokta bir kritik noktadır: yerel minimum, maksimum ya da eyer noktası olabilir.

Cevap: Dual sayı \(2 + \varepsilon\) al (\(\varepsilon^2 = 0\) tanımlı). \((2+\varepsilon)^3 = 8 + 12\varepsilon + 6\varepsilon^2 + \varepsilon^3 = 8 + 12\varepsilon\) (çünkü \(\varepsilon^2\) ve sonrası sıfır). \(\varepsilon\)’un katsayısı 12, tam olarak türevdir (\(3 \cdot 2^2 = 12\)). Bu, Grant’ın “\(dt^2\) ve sonrası terimleri at” hilesinin birebir cebirsel mekaniğidir; PyTorch/JAX türevleri ne sembolik açılımla ne de sayısal fark hatasıyla, bu dual-sayı yapısıyla (ileri mod) hesaplar.

3.10 Egzersizler

Egzersiz 1. Türevin limit tanımını kullanarak \(d(t^2)/dt\)’yi genel \(t\) için türet: \([(t+dt)^2 - t^2] / dt\) ifadesini sadeleştir ve \(dt \to 0\) limitini al. Sonucun \(2t\) çıktığını göster.

Egzersiz 2. \((t+dt)^4\) açılımını yaz (binom). \(d(t^4)/dt\)’yi, \(dt\)’li terimleri \(dt \to 0\)’da atarak hesapla ve kuvvet kuralının (\(4t^3\)) doğrulandığını göster.

Egzersiz 3. (Türev her zaman var mı?) \(f(t) = |t|\) fonksiyonunu \(t = 0\)’da incele. \([f(0+dt) - f(0)] / dt\) oranını \(dt > 0\) ve \(dt < 0\) için ayrı ayrı hesapla. Sağdan ve soldan farklı değerler (\(+1\) ve \(-1\)) çıktığı için limit yoktur → \(f\), \(t = 0\)’da türevlenemez (bir köşe). Sonuç: her fonksiyon her noktada türevlenebilir değildir.

Egzersiz 4. (Python — görsel doğrulama) \(s(t) = t^3\) için sayısal türevi \([s(t+h) - s(t)] / h\) ile hesapla; \(h\) küçüldükçe \(t = 2\)’de \(3 \cdot 2^2 = 12\)’ye yakınsadığını göster. \(h\) çok küçülünce kayan-nokta yuvarlama hatasının nasıl büyüdüğüne dikkat et (autodiff’in sonlu farktan neden üstün olduğunun kanıtı).

Egzersiz 5. (Sonraki dersin habercisi) \(d(t^2)/dt = 2t\) ve \(d(t^3)/dt = 3t^2\) sonuçlarını cebir yapmadan düşün: kenarı \(t\) olan bir karenin alanı \(t^2\), kenarı \(dt\) büyürse alan ne kadar artar? Kenarı \(t\) olan bir küpün hacmi \(t^3\), kenar \(dt\) büyürse hacim ne kadar artar? Ders 3 bu türevleri tam olarak böyle — kareyi ve küpü büyüterek, geometrik olarak — türetecek.

3.11 Sonraki Ders İçin Hazırlık

Ders 3: Geometriyle Türev Formülleri

Ders 2’de bir türevi (\(t^3 \to 3t^2\)) cebirsel olarak, gözle görülür bir karmaşadan geçerek türettik. Ders 3’te Grant aynı formülleri görsel olarak türetiyor: \(x^2\) bir karenin alanı, \(x^3\) bir küpün hacmi olarak düşünülünce, türev “kenarı azıcık büyütünce alan/hacim ne kadar artar?” sorusuna dönüşür ve formüller diyagramdan kendiliğinden çıkar.

Ana konular:

  • \(d(x^2)/dx = 2x\)’in kare-büyütme diyagramıyla türetimi.
  • \(d(x^3)/dx = 3x^2\) ve genel kuvvet kuralı, geometrik olarak.
  • \(1/x\) ve \(\sin(x)\) gibi fonksiyonların türevleri için görsel sezgiler.

3.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Grant’ta
Türevin paradoksu “Anlık değişim oranı” oksimorondur; değişim iki nokta ister 0m35
Mesafe fonksiyonu \(s(t)\) Zamana karşı kat edilen yol; grafiğin eğimi = hız 1m46
\(ds/dt\) (fark oranı) İki yakın nokta arasındaki rise/run eğimi 5m51
Türev = limit \(dt \to 0\) iken \(ds/dt\) oranının yaklaştığı değer 8m02
Teğet doğru eğimi Türevin geometrik anlamı (tek noktada) 8m33
\(dt\) sonlu, sıfır değil Türev, \(dt\)’ye 0 koymak değil; 0’a yaklaşmaktır 9m03
\(d(t^3)/dt = 3t^2\) \((2+dt)^3\) aç, \(dt\)’li terimleri at → \(3 \cdot 2^2\) 13m10
Kuvvet kuralı \(d(t^n)/dt = n \cdot t^{n-1}\) 13m04
En iyi sabit yaklaşım “Anlık oran” yerine türevin doğru kavramı 16m33

3.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. Türev = fark oranının limiti → sayısal türev ve gradient checking (\([L(w+\varepsilon) - L(w)]/\varepsilon\) ile gradyan doğrulama).
  2. Teğet = en iyi lineer yaklaşım → gradient, kayıp yüzeyinin yerel lineer modeli; learning rate, bu yaklaşımın geçerli kaldığı komşuluğu belirler.
  3. \(dt^2\) terimini at” → forward-mode autodiff dual sayıları (\(\varepsilon^2 = 0\)); türevin cebirsel mekaniği, sembolik açılım veya sayısal hata olmadan.
  4. Kuvvet kuralı \(d(t^n)/dt = n \cdot t^{n-1}\) → autodiff kural tablosunun temel girdileri (her primitif işlemin yerel türevi tanımlı).
  5. Türev 0 = kritik nokta → loss yüzeyinde minimum/maksimum/eyer; sıfır gradyan “yerel olarak düz” demektir, “durağan” değil.
  6. “Anlık değil, sonlu \(dt\) → ayrıklaştırma: Euler çözücü adımı, SGD adımı; sürekli türev bunların \(dt \to 0\) limiti.
  7. Türevlenemezlik (\(|t|\) köşesi) → ReLU’nun 0’daki köşesi; pratikte alt-gradyan (subgradient) kullanılır ve tek bir noktadaki kırılma optimizasyonu nadiren bozar.
ÖnemliTek bir şey alıp gideceksen

Türev, “bir anda değişim” değildir — öyle bir şey yok. Türev, \(ds/dt\) fark oranının \(dt \to 0\) iken yaklaştığı limittir: geometrik olarak teğet doğrunun eğimi, kavramsal olarak bir nokta civarındaki değişim oranının en iyi sabit yaklaşımı. Paradoks, soruyu yanlış sormaktan doğar.