4  Geometriyle Türev Formülleri

Kareyi, küpü, su birikintisini ve çemberi büyüt — formül ortaya çıkar

NotBölüm bilgisi

4.1 Bu Derste Ne Var?

Ders 2’de türevin ne olduğunu (fark oranının limiti, teğet eğimi) tanımladık. Bu derste türev formüllerini hesaplamayı öğreniyoruz — ama ezberlenecek bir kurallar listesi olarak değil, geometrik olarak. Grant; \(x^2\), \(x^3\), \(x^n\), \(1/x\) ve \(\sin\) gibi fonksiyonların türevlerini, küçük bir dürtmenin alana/hacme/yüksekliğe etkisini çizerek türetir. Sırrı: küçük dürtmeler (tiny nudges) hep işin kalbinde.

Üç ana fikir:

  1. Kuvvet kuralı \(d(x^n)/dx = n \cdot x^{n-1}\) — bir kareyi/küpü büyütmekten doğal olarak çıkar.
  2. \((dx)^2\) ihmal edilir — “küçük bir değişimin karesi” ihmal edilebilir derecede küçüktür.
  3. \(d(\sin\theta)/d\theta = \cos\theta\) — birim çemberde benzer üçgenle, grafiğe bakmadan.
flowchart TB
    subgraph "Geometrik nesneler"
        K["🟦 Kare<br/>(alan = x²)"]
        C["🧊 Küp<br/>(hacim = x³)"]
        S["💧 Su birikintisi<br/>(alan = 1)"]
        Ç["⭕ Birim çember<br/>(yüksek = sin θ)"]
    end

    K -->|"dx büyüt"| Td["d(x²) = 2x"]
    C -->|"dx büyüt"| Tk["d(x³) = 3x²"]
    S -->|"x büyüt"| To["d(1/x) = −1/x²"]
    Ç -->|"dθ adım"| Tt["d(sin θ) = cos θ"]

    Td --> P["Kuvvet kuralı<br/>d(xⁿ) = n·xⁿ⁻¹"]
    Tk --> P

    style P fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    style Td fill:#e3f2fd,stroke:#1976d2
    style Tk fill:#e3f2fd,stroke:#1976d2
    style To fill:#e3f2fd,stroke:#1976d2
    style Tt fill:#e3f2fd,stroke:#1976d2
Şekil 4.1: Bu bölümün geometrik temalı kavram haritası: her fonksiyon, kendi geometrisini büyüt → türev çıkar.

“never forget that tiny nudges are at the heart of derivatives.” — Grant, 1:32

İpucuBuilder Notu — ML Köprüleri
  • Her temel fonksiyonun türev kuralı = autodiff’in “primitif türev tablosu”. \(x^2\), \(x^n\), \(1/x\), \(\sin\)… her biri framework’te kayıtlı bir yerel türev kuralıdır; backprop bunları zincirler.
  • \((dx)^2\) ihmal” → birinci-derece (lineer) yaklaşım; yine dual sayılar ve Jacobian-vector product’ın temeli.
  • \(d(1/x) = -1/x^2\) → normalizasyon gradyanları: \(1/\sigma\) (batch/layer norm), softmax paydası \(1/\Sigma\) türevleri hep bu biçimde.
  • \(\sin/\cos\) türevleri → sinüzoidal positional encoding ve Fourier özniteliklerinin gradyanları; rotary embedding (RoPE).
  • Geometrik bakış — “bu fonksiyon neyi temsil ediyor?” sorusu, bir işlemin gradyanını yapısal olarak anlamanın en sağlam yoludur.

4.2 Neden Soyut Türevler? Küçük Dürtmeler Kalbi

Türevin ne demek olduğunu gördük; sıradaki adım onları hesaplamak: sana açık formüllü bir fonksiyon versem, türevinin formülünü bulabilmelisin. Peki neden calculus öğrencisinin vaktinin çoğu, somut hız problemleri yerine soyut fonksiyonların türevleriyle boğuşarak geçer?

Çünkü gerçek dünyadaki olguların çoğu — calculus ile analiz etmek istediğimiz şeyler — polinomlar, trigonometrik fonksiyonlar, üsteller ve benzeri saf fonksiyonlarla modellenir. Bu saf fonksiyonların değişim oranlarında akıcılık kazanırsan, somut durumlardaki değişimleri konuşmak için bir dil edinmiş olursun.

Ama bu süreç kolayca “bir kurallar listesi ezberlemek” gibi hissettirir — ve o his geldiğinde, türevlerin aslında bir niceliğe verilen küçük bir değişimin, başka bir nicelikte yol açtığı küçük değişimle ilişkisi olduğunu unutmak da kolaydır. Bu derste kuralları sezgisel ve geometrik düşüneceğiz; sakın küçük dürtmelerin türevin kalbinde olduğunu unutma.

İpucuBuilder Notu — Primitif Kural Kaydı

Bu “saf fonksiyonların türev kurallarında akıcılık” tam olarak bir derin öğrenme framework’ünün yaptığı şeydir: PyTorch/JAX, bilinen her primitif işlem (üs alma, çarpma, exp, sin, log…) için yerel türevi bir tabloda tutar; karmaşık bir modelin gradyanını, bu temel kuralları zincir kuralıyla birleştirerek otomatik çıkarır. Yani bu ders, autodiff’in “kural kaydının” matematiksel kaynağıdır.

4.3 \(d(x^2)/dx = 2x\) — Kareyi Büyütmek

\(f(x) = x^2\) fonksiyonunu al. Türevini soruyorsam: bir \(x\) değerini (örneğin \(x = 2\)) alıp, ondan \(dx\) kadar büyük bir değerle karşılaştırınca, fonksiyon değeri \(df\) ne kadar değişir — ve özellikle \(df/dx\) oranı nedir?

Grafiğe bakarsak, \(df/dx\) teğet doğrunun eğimidir ve \(x\) büyüdükçe eğim artar (\(x = 0\)’da yatay, \(x = 1\)’de eğimli, \(x = 2\)’de daha dik). Ama grafiğe bakmak, kesin formülü bulmanın iyi yolu değil. Bunun için \(x^2\)’nin ne anlama geldiğine daha doğrudan bakalım: kenar uzunluğu \(x\) olan bir kare düşün.

\(x\)’i küçük bir \(dx\) kadar büyütürsen, karenin alanındaki değişim \(df\)’tir. Diyagramda üç yeni alan parçası belirir: iki ince dikdörtgen ve minik bir kare. İki dikdörtgenin her birinin kenarları \(x\) ve \(dx\), yani toplam \(2 \cdot x \cdot dx\) yeni alan. Minik karenin alanı ise \((dx)^2\). Örneğin \(x = 3\), \(dx = 0{,}01\) ise: ince dikdörtgenler \(2 \cdot 3 \cdot 0{,}01 = 0{,}06\) (\(dx\)’in \(\sim 6\) katı), ama minik kare yalnızca \(0{,}0001\) — ihmal edilebilir.

“a good rule of thumb is that you can ignore anything that includes a dx raised to a power greater than one … a tiny change squared is a negligible change.” — Grant, 3:57

Geriye \(df\)’in \(dx\)’in bir katı olması kalır; o kat da türevdir:

\[ \frac{df}{dx} = \frac{2x \, dx + (dx)^2}{dx} = 2x + dx \;\to\; 2x \]

\(x = 3\)’te oran \(2 \cdot 3 = 6\), \(x = 5\)’te \(2 \cdot 5 = 10\) birim alan / birim uzunluk.

İpucuBuilder Notu — Lineer vs Eğrilik

İki dikdörtgen (mertebe \(dx\)) “korunur”, minik kare (mertebe \(dx^2\)) “atılır” — bu, türevin birinci-derece (lineer) bir nesne olmasının geometrik yüzüdür. ML’de gradient de tam böyle: parametredeki küçük değişimin kayba lineer katkısını yakalar; ikinci derece etkiler (eğrilik) Hessian’a kalır. \(dx^2\) atmak, “yerel olarak fonksiyon düzdür” yaklaşımının ta kendisidir.

4.4 \(d(x^3)/dx = 3x^2\) — Küpü Büyütmek

Şimdi \(f(x) = x^3\). Ders 2’de cebirsel yaptığımız şeyin geometrik hâli bu. \(x^3\)’ü, kenar uzunluğu \(x\) olan gerçek bir küpün hacmi olarak düşünebiliriz. \(x\)’i \(dx\) kadar büyütünce ortaya çıkan hacim artışı, kenarı \(x+dx\) olan kübün, kenarı \(x\) olan orijinal kübe ait olmayan kısmıdır.

Bu yeni hacmin neredeyse tamamı üç kare yüzden gelir (\(dx \to 0\) iken bu üç yüz, yeni hacmin %100’üne yaklaşır). Her ince yüzün hacmi \(x^2 \cdot dx\) (yüzün alanı çarpı \(dx\) kalınlık), yani toplam \(3x^2 \cdot dx\). Kenarlardaki ince çubuklar ve köşedeki minik küp ise \((dx)^2\) ve \((dx)^3\) ile orantılı — \(dx\)’e bölününce hayatta kalmazlar, güvenle atılır.

\[ df \approx 3x^2 \, dx \qquad \frac{df}{dx} = 3x^2 \]

İpucuBuilder Notu — Boyut → Katsayı

\(x^2 \to\) 2 dikdörtgen, \(x^3 \to\) 3 kare yüz. Bu “boyut sayısı kadar yüzey katkısı” örüntüsü, kuvvet kuralındaki katsayının (\(n\)) nereden geldiğini gösterir. ML açısından önemli olan ders: bir fonksiyonun gradyanını, onun geometrik/yapısal anlamından okumak, formülü ezberlemekten hem daha güvenilir hem genelleştirilebilirdir.

4.5 Kuvvet Kuralı: \(d(x^n)/dx = n \cdot x^{n-1}\)

Pratikte \(x^2\) için her seferinde kareyi, \(x^3\) için küpü düşünmezsin; ikisi de tanınabilir bir örüntüye uyar. \(x^4\)’ün türevi \(4x^3\), \(x^5\)’in türevi \(5x^4\), ve genel olarak:

\[ \frac{d}{dx}\, x^n = n\, x^{n-1} \]

Buna kuvvet kuralı denir. Sembolik olarak: üs öne iner, geriye kendinden bir eksiğini bırakır. Ama neden çalıştığını \(n = 2, 3\)’ün ötesinde de görelim. \(x\)’i \(x+dx\)’e ittiğinde, \(x+dx\)’in \(n\) kopyasını çarpman gerekir:

\[ (x+dx)^n = x^n + n\, x^{n-1}\, dx + \cdots \]

İlk terim \(x^n\) (orijinal karenin alanı / kübün hacmi gibi). Sonraki terimler için: \(n\) parantezden yalnızca birinden \(dx\), geri kalanından \(x\) seçersin — bunu yapmanın \(n\) yolu var, her biri \(x^{n-1} \cdot dx\) verir, toplam \(n \cdot x^{n-1} \cdot dx\). Açılımdaki diğer tüm terimler \((dx)^2\) ve üzeri içerir; \(dx\)’e bölününce hayatta kalmazlar. Geriye \(n \cdot x^{n-1}\) kalır.

“the derivative of x to the n for any power n is n times x to the n minus 1 … the power rule.” — Grant, 7:28

İpucuBuilder Notu — Birinci Derece

Kuvvet kuralı, autodiff’in en temel kayıtlı kuralıdır. Ama asıl ML dersi açılımda gizli: \((x+dx)^n\)’in yalnızca birinci-derece terimini tutmak, forward-mode autodiff’in dual sayılarıyla (\(\varepsilon^2 = 0\)) birebir aynıdır. Yüksek-dereceli terimleri taşımak ikinci-derece bilgi (eğrilik/Hessian) gerektirir; çoğu eğitim yalnızca birinci dereceyle (gradient) çalışır çünkü ucuz ve ölçeklenebilir.

4.6 \(d(1/x)/dx = -1/x^2\) — Su Birikintisi

\(f(x) = 1/x\)’i ele al. Bir yandan kuvvet kuralını körü körüne uygulayabilirsin: \(1/x = x^{-1}\), üs (\(-1\)) öne iner ve bir eksiği (\(-2\)) kalır \(\to -x^{-2} = -1/x^2\). Ama bunu geometrik olarak da görelim.

\(1/x\), “\(x\) ile çarpınca 1 eden sayı” demek. Şöyle hayal et: alanı 1 olan dikdörtgen bir su birikintisi; genişliği \(x\) ise, yüksekliği \(1/x\) olmak zorunda (çünkü alan = 1). \(x\)’i 2’ye uzatırsan yükseklik \(1/2\)’ye iner; 3’e çıkarırsan \(1/3\)’e sıkışır.

Şimdi \(x\)’i \(dx\) kadar büyüt. Birikintinin alanı 1 sabit kalsın diye yükseklik ne kadar değişmeli? Genişliği \(dx\) artırmak sağda yeni alan ekler ((\(1/x) \cdot dx\) kadar); bunu dengelemek için yükseklik \(d(1/x)\) kadar azalmalı (negatif), öyle ki üstten kaybedilen alan (\(x \cdot |d(1/x)|\)) sağda kazanılanı götürsün:

\[ \frac{1}{x}\,dx = -x \cdot d\left(\frac{1}{x}\right) \qquad \frac{d}{dx}\left(\frac{1}{x}\right) = -\frac{1}{x^2} \]

Körü körüne kuvvet kuralının verdiğiyle birebir aynı — ama şimdi neden negatif ve neden \(1/x^2\) olduğunu görüyorsun. (Aynı muhakemeyle \(\sqrt{x}\)’in türevini de bulmayı dene.)

İpucuBuilder Notu — Normalizasyon

\(d(1/x) = -1/x^2\) işareti ve büyüklüğü ML’de her yerde: bir kaybı \(1/\sigma\) ile ölçeklerken (batch/layer norm) veya softmax paydası \(1/\Sigma\) türevini alırken, “payda büyürse çıktı küçülür, hem de kare oranında” davranışı tam budur. Ters-orantılı bir niceliğin gradyanı her zaman negatif ve karesel sönümlüdür — normalizasyon katmanlarının geri yayılımının özü.

4.7 \(d(\sin\theta)/d\theta = \cos\theta\) — Birim Çember

Son olarak trigonometrik bir fonksiyon: \(\sin\). Birim çemberi (orijin merkezli, yarıçapı 1) hatırla. Bir \(\theta\) değeri için, en sağ noktadan başlayıp çember üzerinde \(\theta\) kadar yay uzunluğu yürürsün; yarıçap 1 olduğundan açı da tam \(\theta\) radyandır. \(\sin(\theta)\), o noktanın \(x\)-ekseni üzerindeki yüksekliğidir. \(\theta\) arttıkça yükseklik \(-1\) ile \(1\) arasında inip çıkar — \(\sin\) grafiği o klasik dalga.

Grafiğe bakarak türevin şeklini sezebiliriz: \(\theta = 0\)’da eğim pozitif (\(\sin\) artıyor), tepede sıfıra iner, sonra bir süre negatif, sonra yine sıfır… Tepe ve çukurlar cosine ile birebir hizalanır, dolayısıyla türevin \(\cos\theta\) olduğunu tahmin edersin. Doğru — ama neden tam olarak cosine, sadece “benzer şekilli yeni bir fonksiyon” değil?

Kesin neden, grafiğe değil fonksiyonun temsil ettiği şeye bakmakta. Çember üzerindeki noktaya yakınlaş ve çevre boyunca küçük bir \(d\theta\) adımı at. Bu kadar yakında çember neredeyse düz bir doğru gibi; küçük bir dik üçgen düşün: hipotenüsü çevre boyunca atılan \(d\theta\) adımı, dikey kenarı ise yükseklikteki değişim, yani \(d(\sin\theta)\). Bu minik üçgen, açısı \(\theta\) ve hipotenüsü yarıçap (uzunluk 1) olan büyük üçgene benzerdir.

\[ \frac{d(\sin\theta)}{d\theta} = \frac{\text{adjacent}}{\text{hypotenuse}} = \cos\theta \]

\(\theta\)’ya komşu kenar bölü hipotenüs — bu zaten cosine’ın tanımı. Demek ki:

\[ \frac{d}{d\theta}\sin(\theta) = \cos(\theta) \]

“adjacent divided by hypotenuse, that’s exactly what the cosine of theta means.” — Grant, 16:24

İpucuBuilder Notu — Fourier ve RoPE

\(\sin\)’in türevinin \(\cos\) olması, sinüzoidlerin türev altında kendi içlerinde dönmesi demektir (\(\sin \to \cos \to -\sin \to -\cos \to \sin\)). Bu kapalılık, Fourier analizi ve transformer’lardaki sinüzoidal positional encoding’in temelidir: konum bilgisini farklı frekanslı \(\sin/\cos\) çiftleriyle kodlarsın, ve türev/kaydırma işlemleri bu tabanda temiz (lineer) kalır. Rotary positional embedding (RoPE) de bu döngüsel yapıyı doğrudan kullanır.

4.8 Bu Dersin Özeti

  1. Türev formülleri ezberlenecek kurallar değil; “girdiye küçük dürtme → çıktıda küçük değişim” geometrisinden çıkar.
  2. \(d(x^2)/dx = 2x\): kareyi \(dx\) büyüt → iki \(x \cdot dx\) çubuğu; minik kare (\(dx^2\)) atılır.
  3. \(d(x^3)/dx = 3x^2\): küpü \(dx\) büyüt → üç \(x^2 \cdot dx\) yüzü; kenar/köşe parçaları atılır.
  4. Kuvvet kuralı \(d(x^n)/dx = n \cdot x^{n-1}\): \((x+dx)^n\) açılımında \(dx\)’i \(n\) paranteziden birinden seçmenin \(n\) yolu → \(n \cdot x^{n-1} \cdot dx\).
  5. \((dx)^2\) ve daha yüksek kuvvetler her zaman atılır — türev özünde birinci-derece bir nesnedir.
  6. \(d(1/x)/dx = -1/x^2\): alanı sabit su birikintisi; körü körüne kuvvet kuralıyla (\(x^{-1} \to -x^{-2}\)) aynı sonuç.
  7. \(d(\sin\theta)/d\theta = \cos\theta\): birim çemberde benzer üçgen; komşu kenar / hipotenüs = \(\cos\theta\).
ÖnemliTek bir cümle

Her türev formülü, fonksiyonun temsil ettiği geometrik nesneyi (kare, küp, su birikintisi, çember) \(dx\) kadar büyütüp “birinci-derece” değişimi okumaktan çıkar; \((dx)^2\) atılır, çünkü türev özünde yerel bir lineer yaklaşımdır.

4.9 Kontrol Soruları

Cevap: \((x+dx)^4 = x^4 + 4x^3 \cdot dx + (dx^2\) ve daha yüksek terimler\()\). İlk terim \(x^4\) orijinal değer; \(dx\)’i dört parantezden birinden seçmenin 4 yolu var, her biri \(x^3 \cdot dx\) → toplam \(4x^3 \cdot dx\). Geri kalan terimler \(dx^2\) içerir, \(dx\)’e bölününce kaybolur. Sonuç: \(d(x^4)/dx = 4x^3\) (kuvvet kuralıyla uyumlu).

Cevap: İkisi de \(df\)’e (alan değişimine) katkı verir. Ama \(df/dx\) oranına bakınca: \(2x \cdot dx\) terimi \(dx\)’e bölününce \(2x\) (sabit) kalır; \((dx)^2\) terimi ise \(dx\)’e bölününce \(dx\) olur ve \(dx \to 0\)’da sıfıra gider. Yani limitte yalnızca birinci-derece (tek \(dx\)’li) terim hayatta kalır; \((dx)^2\) “ikinci-derece” katkıdır ve türevde görünmez.

Cevap: \(\sqrt{x} = x^{1/2}\). Kuvvet kuralı: üs \((1/2)\) öne iner, bir eksiği \((-1/2)\) kalır → \((1/2) \cdot x^{-1/2} = 1/(2\sqrt{x})\). \(x\) büyüdükçe türev küçülür (eğri yatıklaşır). \(x = 0\)’da \(1/(2 \cdot 0)\) tanımsızdır — grafiğin orada dikey teğeti vardır (eğim sonsuza gider).

Cevap: \(\sin\) ve \(\cos\) türev (ve kaydırma) altında birbirine dönüşür: \(\sin \to \cos \to -\sin \to -\cos \to \sin\). Bu kapalılık sayesinde, konumu farklı frekanslı \(\sin/\cos\) çiftleriyle kodlarsan, bir konum kaymasını sabit bir lineer dönüşüm (rotasyon) temsil eder. Transformer’ın göreli konumu kolayca öğrenmesini sağlayan budur; rotary positional embedding (RoPE) bu döngüsel/rotasyonel yapıyı doğrudan kullanır.

4.10 Egzersizler

Egzersiz 1. \((x+dx)^5\) açılımının birinci-derece terimini bularak \(d(x^5)/dx\)’i hesapla; kuvvet kuralının (\(5x^4\)) doğrulandığını göster.

Egzersiz 2. Kareyi büyütme diyagramında \(x = 10\), \(dx = 0{,}1\) al. İki ince dikdörtgenin toplam alanını (\(2 \cdot x \cdot dx\)) ve minik karenin alanını (\((dx)^2\)) sayısal hesapla. Minik kare, dikdörtgenlerin yüzde kaçı? \(dx\)’i \(0{,}01\)’e düşürünce bu oran ne olur?

Egzersiz 3. \(d(\cos\theta)/d\theta\)’yı birim çemberde benzer üçgenle türet. (İpucu: \(d\theta\) adımının yataydaki bileşenine ve işaretine bak; sonucun \(-\sin\theta\) çıkması gerekir.)

Egzersiz 4. (Python — görsel doğrulama) SymPy ile temel türevleri sembolik al, sonra \(\sin\) ile \(\cos\)’u üst üste çizip türev ilişkisini gör.

Egzersiz 5. (Sonraki dersin habercisi) \(f(x) = \sin(x^2)\) gibi bir bileşke fonksiyonu düşün: dış fonksiyon \(\sin\) (türevi \(\cos\)), iç fonksiyon \(x^2\) (türevi \(2x\)). Bu ikisini nasıl birleştirip \(f\)’in türevini bulursun? Tahminini yaz — Ders 4, bileşke fonksiyonlar için zincir kuralını anlatacak.

4.11 Sonraki Ders İçin Hazırlık

Ders 4: Zincir Kuralı ve Çarpım Kuralı (Görsel)

Bu derste tek tek fonksiyonların türevlerini öğrendik. Ders 4, bunları birleştirmeyi ele alıyor: toplam (\(f+g\)), çarpım (\(f \cdot g\)) ve bileşke (\(f(g(x))\)) fonksiyonların türevleri. Her birini yine geometrik/sezgisel olarak — çarpımı bir dikdörtgenin alanı, bileşkeyi ardışık dürtmeler olarak — göreceğiz. Zincir kuralı, ML için en kritik olanı: backprop’un tam kalbidir.

4.12 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Grant’ta
\(d(x^2)/dx = 2x\) Kareyi \(dx\) büyüt: iki \(x \cdot dx\) çubuğu (minik kare atılır) 2m35
\(d(x^3)/dx = 3x^2\) Küpü \(dx\) büyüt: üç \(x^2 \cdot dx\) yüzü 4m42
\((dx)^2\) ihmali Küçük değişimin karesi negligible; türev birinci-derecedir 3m57
Kuvvet kuralı \(d(x^n)/dx = n \cdot x^{n-1}\); \((x+dx)^n\) açılımından 7m28
\(d(1/x)/dx = -1/x^2\) Alanı sabit su birikintisi (genişlik \(x\), yükseklik \(1/x\)) 10m08
\(d(\sqrt{x})/dx = 1/(2\sqrt{x})\) \(x^{1/2}\) için kuvvet kuralı 12m25
\(d(\sin\theta)/d\theta = \cos\theta\) Birim çemberde benzer üçgen: adjacent / hypotenuse 12m38
Geometrik türetim “Fonksiyon neyi temsil ediyor?” → diyagramı büyüt 2m30
Tiny nudge sezgisi Türevin kalbi: küçük dürtme → küçük değişim 1m32

4.13 ML Bağlantıları Özeti

İpucu7 köprü
  1. Temel türev tablosu → autodiff’in primitif kural kaydı: her işlemin (üs, çarpım, exp, sin, log) yerel türevi tanımlı.
  2. \((dx)^2\) ihmali → birinci-derece/lineer yaklaşım; dual sayılar (\(\varepsilon^2 = 0\)); gradient eğriliği (Hessian) taşımaz.
  3. Kuvvet kuralı katsayısı\(n \cdot x^{n-1}\); “\(n\) yüz/çubuk” geometrisi, gradyan büyüklüğünün ölçeğini belirler.
  4. \(d(1/x) = -1/x^2\) → normalizasyon gradyanları (\(1/\sigma\), softmax paydası \(1/\Sigma\)): negatif ve karesel sönümlü.
  5. \(\sin/\cos\) kapalılığı → Fourier öznitelikleri, sinüzoidal positional encoding, rotary embedding (RoPE).
  6. “Fonksiyon neyi temsil ediyor” geometrik bakışı → bir operatörün gradyanını ezberlemeden, yapısal olarak okumak.
  7. (Sonraki) zincir kuralı → backprop; bu dersin temel kuralları, bileşke fonksiyonlarda zincirlenecek.
ÖnemliTek bir şey alıp gideceksen

Türev formülleri gökten inmez. \(x^2\)’yi bir kare, \(x^3\)’ü bir küp, \(1/x\)’i alanı sabit bir su birikintisi, \(\sin\theta\)’yı bir çember yüksekliği olarak görüp \(dx\) kadar büyüt — formül, birinci-derece değişimi okumaktan kendiliğinden çıkar. \((dx)^2\) hep atılır, çünkü türev yerel bir lineer yaklaşımdır.