4 Geometriyle Türev Formülleri

Kareyi, küpü, su birikintisini ve çemberi büyüt — formül ortaya çıkar

Bölüm bilgisi

Grant’ın videosu: YouTube — Chapter 3: Derivative formulas through geometry (≈17 dk)
Kaynak: 3Blue1Brown — Essence of Calculus
Okuma süresi: ≈24 dk

4.1 Bu Derste Ne Var?

Ders 2’de türevin ne olduğunu (fark oranının limiti, teğet eğimi) tanımladık. Bu derste türev formüllerini hesaplamayı öğreniyoruz — ama ezberlenecek bir kurallar listesi olarak değil, geometrik olarak. Grant; $x^2$, $x^3$, $x^n$, $1/x$ ve $\sin$ gibi fonksiyonların türevlerini, küçük bir dürtmenin alana/hacme/yüksekliğe etkisini çizerek türetir. Sırrı: küçük dürtmeler (tiny nudges) hep işin kalbinde.

Üç ana fikir:

Kuvvet kuralı $d(x^n)/dx = n \cdot x^{n-1}$ — bir kareyi/küpü büyütmekten doğal olarak çıkar.
$(dx)^2$ ihmal edilir — “küçük bir değişimin karesi” ihmal edilebilir derecede küçüktür.
$d(\sin\theta)/d\theta = \cos\theta$ — birim çemberde benzer üçgenle, grafiğe bakmadan.

flowchart TB
    subgraph "Geometrik nesneler"
        K["🟦 Kare<br/>(alan = x²)"]
        C["🧊 Küp<br/>(hacim = x³)"]
        S["💧 Su birikintisi<br/>(alan = 1)"]
        Ç["⭕ Birim çember<br/>(yüksek = sin θ)"]
    end

    K -->|"dx büyüt"| Td["d(x²) = 2x"]
    C -->|"dx büyüt"| Tk["d(x³) = 3x²"]
    S -->|"x büyüt"| To["d(1/x) = −1/x²"]
    Ç -->|"dθ adım"| Tt["d(sin θ) = cos θ"]

    Td --> P["Kuvvet kuralı<br/>d(xⁿ) = n·xⁿ⁻¹"]
    Tk --> P

    style P fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    style Td fill:#e3f2fd,stroke:#1976d2
    style Tk fill:#e3f2fd,stroke:#1976d2
    style To fill:#e3f2fd,stroke:#1976d2
    style Tt fill:#e3f2fd,stroke:#1976d2

Şekil 4.1: Bu bölümün geometrik temalı kavram haritası: her fonksiyon, kendi geometrisini büyüt → türev çıkar.

“never forget that tiny nudges are at the heart of derivatives.” — Grant, 1:32

Builder Notu — ML Köprüleri

Her temel fonksiyonun türev kuralı = autodiff’in “primitif türev tablosu”. $x^2$, $x^n$, $1/x$, $\sin$… her biri framework’te kayıtlı bir yerel türev kuralıdır; backprop bunları zincirler.
“$(dx)^2$ ihmal” → birinci-derece (lineer) yaklaşım; yine dual sayılar ve Jacobian-vector product’ın temeli.
$d(1/x) = -1/x^2$ → normalizasyon gradyanları: $1/\sigma$ (batch/layer norm), softmax paydası $1/\Sigma$ türevleri hep bu biçimde.
$\sin/\cos$ türevleri → sinüzoidal positional encoding ve Fourier özniteliklerinin gradyanları; rotary embedding (RoPE).
Geometrik bakış — “bu fonksiyon neyi temsil ediyor?” sorusu, bir işlemin gradyanını yapısal olarak anlamanın en sağlam yoludur.

4.2 Neden Soyut Türevler? Küçük Dürtmeler Kalbi

Türevin ne demek olduğunu gördük; sıradaki adım onları hesaplamak: sana açık formüllü bir fonksiyon versem, türevinin formülünü bulabilmelisin. Peki neden calculus öğrencisinin vaktinin çoğu, somut hız problemleri yerine soyut fonksiyonların türevleriyle boğuşarak geçer?

Çünkü gerçek dünyadaki olguların çoğu — calculus ile analiz etmek istediğimiz şeyler — polinomlar, trigonometrik fonksiyonlar, üsteller ve benzeri saf fonksiyonlarla modellenir. Bu saf fonksiyonların değişim oranlarında akıcılık kazanırsan, somut durumlardaki değişimleri konuşmak için bir dil edinmiş olursun.

Ama bu süreç kolayca “bir kurallar listesi ezberlemek” gibi hissettirir — ve o his geldiğinde, türevlerin aslında bir niceliğe verilen küçük bir değişimin, başka bir nicelikte yol açtığı küçük değişimle ilişkisi olduğunu unutmak da kolaydır. Bu derste kuralları sezgisel ve geometrik düşüneceğiz; sakın küçük dürtmelerin türevin kalbinde olduğunu unutma.

Builder Notu — Primitif Kural Kaydı

Bu “saf fonksiyonların türev kurallarında akıcılık” tam olarak bir derin öğrenme framework’ünün yaptığı şeydir: PyTorch/JAX, bilinen her primitif işlem (üs alma, çarpma, exp, sin, log…) için yerel türevi bir tabloda tutar; karmaşık bir modelin gradyanını, bu temel kuralları zincir kuralıyla birleştirerek otomatik çıkarır. Yani bu ders, autodiff’in “kural kaydının” matematiksel kaynağıdır.

4.3 $d(x^2)/dx = 2x$ — Kareyi Büyütmek

$f(x) = x^2$ fonksiyonunu al. Türevini soruyorsam: bir $x$ değerini (örneğin $x = 2$) alıp, ondan $dx$ kadar büyük bir değerle karşılaştırınca, fonksiyon değeri $df$ ne kadar değişir — ve özellikle $df/dx$ oranı nedir?

Grafiğe bakarsak, $df/dx$ teğet doğrunun eğimidir ve $x$ büyüdükçe eğim artar ($x = 0$’da yatay, $x = 1$’de eğimli, $x = 2$’de daha dik). Ama grafiğe bakmak, kesin formülü bulmanın iyi yolu değil. Bunun için $x^2$’nin ne anlama geldiğine daha doğrudan bakalım: kenar uzunluğu $x$ olan bir kare düşün.

Şekil 4.2: Kenarı $x$ olan kareyi $dx$ büyüt: alan değişimi $df$ = 2 dikdörtgen ($2x \cdot dx$, mavi) + minik kare ($dx^2$, kırmızı, ihmal).

$x$’i küçük bir $dx$ kadar büyütürsen, karenin alanındaki değişim $df$’tir. Diyagramda üç yeni alan parçası belirir: iki ince dikdörtgen ve minik bir kare. İki dikdörtgenin her birinin kenarları $x$ ve $dx$, yani toplam $2 \cdot x \cdot dx$ yeni alan. Minik karenin alanı ise $(dx)^2$. Örneğin $x = 3$, $dx = 0{,}01$ ise: ince dikdörtgenler $2 \cdot 3 \cdot 0{,}01 = 0{,}06$ ($dx$’in $\sim 6$ katı), ama minik kare yalnızca $0{,}0001$ — ihmal edilebilir.

“a good rule of thumb is that you can ignore anything that includes a dx raised to a power greater than one … a tiny change squared is a negligible change.” — Grant, 3:57

Geriye $df$’in $dx$’in bir katı olması kalır; o kat da türevdir:

\[ \frac{df}{dx} = \frac{2x \, dx + (dx)^2}{dx} = 2x + dx \;\to\; 2x \]

$x = 3$’te oran $2 \cdot 3 = 6$, $x = 5$’te $2 \cdot 5 = 10$ birim alan / birim uzunluk.

Builder Notu — Lineer vs Eğrilik

İki dikdörtgen (mertebe $dx$) “korunur”, minik kare (mertebe $dx^2$) “atılır” — bu, türevin birinci-derece (lineer) bir nesne olmasının geometrik yüzüdür. ML’de gradient de tam böyle: parametredeki küçük değişimin kayba lineer katkısını yakalar; ikinci derece etkiler (eğrilik) Hessian’a kalır. $dx^2$ atmak, “yerel olarak fonksiyon düzdür” yaklaşımının ta kendisidir.

4.4 $d(x^3)/dx = 3x^2$ — Küpü Büyütmek

Şimdi $f(x) = x^3$. Ders 2’de cebirsel yaptığımız şeyin geometrik hâli bu. $x^3$’ü, kenar uzunluğu $x$ olan gerçek bir küpün hacmi olarak düşünebiliriz. $x$’i $dx$ kadar büyütünce ortaya çıkan hacim artışı, kenarı $x+dx$ olan kübün, kenarı $x$ olan orijinal kübe ait olmayan kısmıdır.

Şekil 4.3: Küpü $dx$ büyüt: üç ince yüz ($3 \cdot x^2 \cdot dx$, mavi) ana katkı; üç çubuk ($3 \cdot x \cdot dx^2$) ve köşedeki minik küp ($dx^3$) ihmal edilir.

Bu yeni hacmin neredeyse tamamı üç kare yüzden gelir ($dx \to 0$ iken bu üç yüz, yeni hacmin %100’üne yaklaşır). Her ince yüzün hacmi $x^2 \cdot dx$ (yüzün alanı çarpı $dx$ kalınlık), yani toplam $3x^2 \cdot dx$. Kenarlardaki ince çubuklar ve köşedeki minik küp ise $(dx)^2$ ve $(dx)^3$ ile orantılı — $dx$’e bölününce hayatta kalmazlar, güvenle atılır.

\[ df \approx 3x^2 \, dx \qquad \frac{df}{dx} = 3x^2 \]

Builder Notu — Boyut → Katsayı

$x^2 \to$ 2 dikdörtgen, $x^3 \to$ 3 kare yüz. Bu “boyut sayısı kadar yüzey katkısı” örüntüsü, kuvvet kuralındaki katsayının ($n$) nereden geldiğini gösterir. ML açısından önemli olan ders: bir fonksiyonun gradyanını, onun geometrik/yapısal anlamından okumak, formülü ezberlemekten hem daha güvenilir hem genelleştirilebilirdir.

4.5 Kuvvet Kuralı: $d(x^n)/dx = n \cdot x^{n-1}$

Pratikte $x^2$ için her seferinde kareyi, $x^3$ için küpü düşünmezsin; ikisi de tanınabilir bir örüntüye uyar. $x^4$’ün türevi $4x^3$, $x^5$’in türevi $5x^4$, ve genel olarak:

\[ \frac{d}{dx}\, x^n = n\, x^{n-1} \]

Buna kuvvet kuralı denir. Sembolik olarak: üs öne iner, geriye kendinden bir eksiğini bırakır. Ama neden çalıştığını $n = 2, 3$’ün ötesinde de görelim. $x$’i $x+dx$’e ittiğinde, $x+dx$’in $n$ kopyasını çarpman gerekir:

\[ (x+dx)^n = x^n + n\, x^{n-1}\, dx + \cdots \]

İlk terim $x^n$ (orijinal karenin alanı / kübün hacmi gibi). Sonraki terimler için: $n$ parantezden yalnızca birinden $dx$, geri kalanından $x$ seçersin — bunu yapmanın $n$ yolu var, her biri $x^{n-1} \cdot dx$ verir, toplam $n \cdot x^{n-1} \cdot dx$. Açılımdaki diğer tüm terimler $(dx)^2$ ve üzeri içerir; $dx$’e bölününce hayatta kalmazlar. Geriye $n \cdot x^{n-1}$ kalır.

“the derivative of x to the n for any power n is n times x to the n minus 1 … the power rule.” — Grant, 7:28

Builder Notu — Birinci Derece

Kuvvet kuralı, autodiff’in en temel kayıtlı kuralıdır. Ama asıl ML dersi açılımda gizli: $(x+dx)^n$’in yalnızca birinci-derece terimini tutmak, forward-mode autodiff’in dual sayılarıyla ($\varepsilon^2 = 0$) birebir aynıdır. Yüksek-dereceli terimleri taşımak ikinci-derece bilgi (eğrilik/Hessian) gerektirir; çoğu eğitim yalnızca birinci dereceyle (gradient) çalışır çünkü ucuz ve ölçeklenebilir.

4.6 $d(1/x)/dx = -1/x^2$ — Su Birikintisi

$f(x) = 1/x$’i ele al. Bir yandan kuvvet kuralını körü körüne uygulayabilirsin: $1/x = x^{-1}$, üs ($-1$) öne iner ve bir eksiği ($-2$) kalır $\to -x^{-2} = -1/x^2$. Ama bunu geometrik olarak da görelim.

$1/x$, “$x$ ile çarpınca 1 eden sayı” demek. Şöyle hayal et: alanı 1 olan dikdörtgen bir su birikintisi; genişliği $x$ ise, yüksekliği $1/x$ olmak zorunda (çünkü alan = 1). $x$’i 2’ye uzatırsan yükseklik $1/2$’ye iner; 3’e çıkarırsan $1/3$’e sıkışır.

Şekil 4.4: Alanı sabit 1 olan dikdörtgen su birikintisi: genişlik $x$ artarsa, yükseklik $1/x$ azalır. $d(1/x)$, üstten kaybedilen ile sağda kazanılan alanları eşitleyerek $-1/x^2$ verir.

Şimdi $x$’i $dx$ kadar büyüt. Birikintinin alanı 1 sabit kalsın diye yükseklik ne kadar değişmeli? Genişliği $dx$ artırmak sağda yeni alan ekler (($1/x) \cdot dx$ kadar); bunu dengelemek için yükseklik $d(1/x)$ kadar azalmalı (negatif), öyle ki üstten kaybedilen alan ($x \cdot |d(1/x)|$) sağda kazanılanı götürsün:

\[ \frac{1}{x}\,dx = -x \cdot d\left(\frac{1}{x}\right) \qquad \frac{d}{dx}\left(\frac{1}{x}\right) = -\frac{1}{x^2} \]

Körü körüne kuvvet kuralının verdiğiyle birebir aynı — ama şimdi neden negatif ve neden $1/x^2$ olduğunu görüyorsun. (Aynı muhakemeyle $\sqrt{x}$’in türevini de bulmayı dene.)

Builder Notu — Normalizasyon

$d(1/x) = -1/x^2$ işareti ve büyüklüğü ML’de her yerde: bir kaybı $1/\sigma$ ile ölçeklerken (batch/layer norm) veya softmax paydası $1/\Sigma$ türevini alırken, “payda büyürse çıktı küçülür, hem de kare oranında” davranışı tam budur. Ters-orantılı bir niceliğin gradyanı her zaman negatif ve karesel sönümlüdür — normalizasyon katmanlarının geri yayılımının özü.

4.7 $d(\sin\theta)/d\theta = \cos\theta$ — Birim Çember

Son olarak trigonometrik bir fonksiyon: $\sin$. Birim çemberi (orijin merkezli, yarıçapı 1) hatırla. Bir $\theta$ değeri için, en sağ noktadan başlayıp çember üzerinde $\theta$ kadar yay uzunluğu yürürsün; yarıçap 1 olduğundan açı da tam $\theta$ radyandır. $\sin(\theta)$, o noktanın $x$-ekseni üzerindeki yüksekliğidir. $\theta$ arttıkça yükseklik $-1$ ile $1$ arasında inip çıkar — $\sin$ grafiği o klasik dalga.

Grafiğe bakarak türevin şeklini sezebiliriz: $\theta = 0$’da eğim pozitif ($\sin$ artıyor), tepede sıfıra iner, sonra bir süre negatif, sonra yine sıfır… Tepe ve çukurlar cosine ile birebir hizalanır, dolayısıyla türevin $\cos\theta$ olduğunu tahmin edersin. Doğru — ama neden tam olarak cosine, sadece “benzer şekilli yeni bir fonksiyon” değil?

Kesin neden, grafiğe değil fonksiyonun temsil ettiği şeye bakmakta. Çember üzerindeki noktaya yakınlaş ve çevre boyunca küçük bir $d\theta$ adımı at. Bu kadar yakında çember neredeyse düz bir doğru gibi; küçük bir dik üçgen düşün: hipotenüsü çevre boyunca atılan $d\theta$ adımı, dikey kenarı ise yükseklikteki değişim, yani $d(\sin\theta)$. Bu minik üçgen, açısı $\theta$ ve hipotenüsü yarıçap (uzunluk 1) olan büyük üçgene benzerdir.

Şekil 4.5: Birim çember üzerinde $\theta$ noktası ile $d\theta$ adımı: küçük üçgen büyük üçgene benzer. Türev = komşu kenar / hipotenüs = $\cos\theta$.

\[ \frac{d(\sin\theta)}{d\theta} = \frac{\text{adjacent}}{\text{hypotenuse}} = \cos\theta \]

$\theta$’ya komşu kenar bölü hipotenüs — bu zaten cosine’ın tanımı. Demek ki:

\[ \frac{d}{d\theta}\sin(\theta) = \cos(\theta) \]

“adjacent divided by hypotenuse, that’s exactly what the cosine of theta means.” — Grant, 16:24

Builder Notu — Fourier ve RoPE

$\sin$’in türevinin $\cos$ olması, sinüzoidlerin türev altında kendi içlerinde dönmesi demektir ($\sin \to \cos \to -\sin \to -\cos \to \sin$). Bu kapalılık, Fourier analizi ve transformer’lardaki sinüzoidal positional encoding’in temelidir: konum bilgisini farklı frekanslı $\sin/\cos$ çiftleriyle kodlarsın, ve türev/kaydırma işlemleri bu tabanda temiz (lineer) kalır. Rotary positional embedding (RoPE) de bu döngüsel yapıyı doğrudan kullanır.

4.8 Bu Dersin Özeti

Türev formülleri ezberlenecek kurallar değil; “girdiye küçük dürtme → çıktıda küçük değişim” geometrisinden çıkar.
$d(x^2)/dx = 2x$: kareyi $dx$ büyüt → iki $x \cdot dx$ çubuğu; minik kare ($dx^2$) atılır.
$d(x^3)/dx = 3x^2$: küpü $dx$ büyüt → üç $x^2 \cdot dx$ yüzü; kenar/köşe parçaları atılır.
Kuvvet kuralı $d(x^n)/dx = n \cdot x^{n-1}$: $(x+dx)^n$ açılımında $dx$’i $n$ paranteziden birinden seçmenin $n$ yolu → $n \cdot x^{n-1} \cdot dx$.
$(dx)^2$ ve daha yüksek kuvvetler her zaman atılır — türev özünde birinci-derece bir nesnedir.
$d(1/x)/dx = -1/x^2$: alanı sabit su birikintisi; körü körüne kuvvet kuralıyla ($x^{-1} \to -x^{-2}$) aynı sonuç.
$d(\sin\theta)/d\theta = \cos\theta$: birim çemberde benzer üçgen; komşu kenar / hipotenüs = $\cos\theta$.

Tek bir cümle

Her türev formülü, fonksiyonun temsil ettiği geometrik nesneyi (kare, küp, su birikintisi, çember) $dx$ kadar büyütüp “birinci-derece” değişimi okumaktan çıkar; $(dx)^2$ atılır, çünkü türev özünde yerel bir lineer yaklaşımdır.

4.9 Kontrol Soruları

Soru 1: d(x⁴)/dx’i, (x+dx)⁴ açılımındaki birinci-derece terimi düşünerek bul.

Cevap: $(x+dx)^4 = x^4 + 4x^3 \cdot dx + (dx^2$ ve daha yüksek terimler$)$. İlk terim $x^4$ orijinal değer; $dx$’i dört parantezden birinden seçmenin 4 yolu var, her biri $x^3 \cdot dx$ → toplam $4x^3 \cdot dx$. Geri kalan terimler $dx^2$ içerir, $dx$’e bölününce kaybolur. Sonuç: $d(x^4)/dx = 4x^3$ (kuvvet kuralıyla uyumlu).

Soru 2: d(x²)/dx’te minik kareyi ((dx)²) neden atıyoruz ama iki dikdörtgeni (2x·dx) tutuyoruz?

Cevap: İkisi de $df$’e (alan değişimine) katkı verir. Ama $df/dx$ oranına bakınca: $2x \cdot dx$ terimi $dx$’e bölününce $2x$ (sabit) kalır; $(dx)^2$ terimi ise $dx$’e bölününce $dx$ olur ve $dx \to 0$’da sıfıra gider. Yani limitte yalnızca birinci-derece (tek $dx$’li) terim hayatta kalır; $(dx)^2$ “ikinci-derece” katkıdır ve türevde görünmez.

Soru 3: d(√x)/dx’i kuvvet kuralıyla bul ve x = 0’da ne olduğunu söyle.

Cevap: $\sqrt{x} = x^{1/2}$. Kuvvet kuralı: üs $(1/2)$ öne iner, bir eksiği $(-1/2)$ kalır → $(1/2) \cdot x^{-1/2} = 1/(2\sqrt{x})$. $x$ büyüdükçe türev küçülür (eğri yatıklaşır). $x = 0$’da $1/(2 \cdot 0)$ tanımsızdır — grafiğin orada dikey teğeti vardır (eğim sonsuza gider).

Soru 4: (Builder) sin’in türevinin cos olması, positional encoding’de neden işe yarar?

Cevap: $\sin$ ve $\cos$ türev (ve kaydırma) altında birbirine dönüşür: $\sin \to \cos \to -\sin \to -\cos \to \sin$. Bu kapalılık sayesinde, konumu farklı frekanslı $\sin/\cos$ çiftleriyle kodlarsan, bir konum kaymasını sabit bir lineer dönüşüm (rotasyon) temsil eder. Transformer’ın göreli konumu kolayca öğrenmesini sağlayan budur; rotary positional embedding (RoPE) bu döngüsel/rotasyonel yapıyı doğrudan kullanır.

4.10 Egzersizler

Egzersiz 1. $(x+dx)^5$ açılımının birinci-derece terimini bularak $d(x^5)/dx$’i hesapla; kuvvet kuralının ($5x^4$) doğrulandığını göster.

Egzersiz 2. Kareyi büyütme diyagramında $x = 10$, $dx = 0{,}1$ al. İki ince dikdörtgenin toplam alanını ($2 \cdot x \cdot dx$) ve minik karenin alanını ($(dx)^2$) sayısal hesapla. Minik kare, dikdörtgenlerin yüzde kaçı? $dx$’i $0{,}01$’e düşürünce bu oran ne olur?

Egzersiz 3. $d(\cos\theta)/d\theta$’yı birim çemberde benzer üçgenle türet. (İpucu: $d\theta$ adımının yataydaki bileşenine ve işaretine bak; sonucun $-\sin\theta$ çıkması gerekir.)

Egzersiz 4. (Python — görsel doğrulama) SymPy ile temel türevleri sembolik al, sonra $\sin$ ile $\cos$’u üst üste çizip türev ilişkisini gör.

x**2 -> 2*x
x**3 -> 3*x**2
x**5 -> 5*x**4
1/x -> -1/x**2
sqrt(x) -> 1/(2*sqrt(x))
sin(x) -> cos(x)

Şekil 4.6: $\sin$’in türevi $\cos$: $\sin$’in tepe ve çukurlarında $\cos$ sıfıra iner, ve tersi. Türev geometrisi grafiklerden net görülür.

Egzersiz 5. (Sonraki dersin habercisi) $f(x) = \sin(x^2)$ gibi bir bileşke fonksiyonu düşün: dış fonksiyon $\sin$ (türevi $\cos$), iç fonksiyon $x^2$ (türevi $2x$). Bu ikisini nasıl birleştirip $f$’in türevini bulursun? Tahminini yaz — Ders 4, bileşke fonksiyonlar için zincir kuralını anlatacak.

4.11 Sonraki Ders İçin Hazırlık

Ders 4: Zincir Kuralı ve Çarpım Kuralı (Görsel)

Bu derste tek tek fonksiyonların türevlerini öğrendik. Ders 4, bunları birleştirmeyi ele alıyor: toplam ($f+g$), çarpım ($f \cdot g$) ve bileşke ($f(g(x))$) fonksiyonların türevleri. Her birini yine geometrik/sezgisel olarak — çarpımı bir dikdörtgenin alanı, bileşkeyi ardışık dürtmeler olarak — göreceğiz. Zincir kuralı, ML için en kritik olanı: backprop’un tam kalbidir.

4.12 Anahtar Kavramlar (Cheat Sheet)

Kavram	Tanım	Grant’ta
$d(x^2)/dx = 2x$	Kareyi $dx$ büyüt: iki $x \cdot dx$ çubuğu (minik kare atılır)	2m35
$d(x^3)/dx = 3x^2$	Küpü $dx$ büyüt: üç $x^2 \cdot dx$ yüzü	4m42
$(dx)^2$ ihmali	Küçük değişimin karesi negligible; türev birinci-derecedir	3m57
Kuvvet kuralı	$d(x^n)/dx = n \cdot x^{n-1}$; $(x+dx)^n$ açılımından	7m28
$d(1/x)/dx = -1/x^2$	Alanı sabit su birikintisi (genişlik $x$, yükseklik $1/x$)	10m08
$d(\sqrt{x})/dx = 1/(2\sqrt{x})$	$x^{1/2}$ için kuvvet kuralı	12m25
$d(\sin\theta)/d\theta = \cos\theta$	Birim çemberde benzer üçgen: adjacent / hypotenuse	12m38
Geometrik türetim	“Fonksiyon neyi temsil ediyor?” → diyagramı büyüt	2m30
Tiny nudge sezgisi	Türevin kalbi: küçük dürtme → küçük değişim	1m32

4.13 ML Bağlantıları Özeti

7 köprü

Temel türev tablosu → autodiff’in primitif kural kaydı: her işlemin (üs, çarpım, exp, sin, log) yerel türevi tanımlı.
$(dx)^2$ ihmali → birinci-derece/lineer yaklaşım; dual sayılar ($\varepsilon^2 = 0$); gradient eğriliği (Hessian) taşımaz.
Kuvvet kuralı katsayısı → $n \cdot x^{n-1}$; “$n$ yüz/çubuk” geometrisi, gradyan büyüklüğünün ölçeğini belirler.
$d(1/x) = -1/x^2$ → normalizasyon gradyanları ($1/\sigma$, softmax paydası $1/\Sigma$): negatif ve karesel sönümlü.
$\sin/\cos$ kapalılığı → Fourier öznitelikleri, sinüzoidal positional encoding, rotary embedding (RoPE).
“Fonksiyon neyi temsil ediyor” geometrik bakışı → bir operatörün gradyanını ezberlemeden, yapısal olarak okumak.
(Sonraki) zincir kuralı → backprop; bu dersin temel kuralları, bileşke fonksiyonlarda zincirlenecek.

Tek bir şey alıp gideceksen

Türev formülleri gökten inmez. $x^2$’yi bir kare, $x^3$’ü bir küp, $1/x$’i alanı sabit bir su birikintisi, $\sin\theta$’yı bir çember yüksekliği olarak görüp $dx$ kadar büyüt — formül, birinci-derece değişimi okumaktan kendiliğinden çıkar. $(dx)^2$ hep atılır, çünkü türev yerel bir lineer yaklaşımdır.

--- title: "Geometriyle Türev Formülleri" subtitle: "Kareyi, küpü, su birikintisini ve çemberi büyüt — formül ortaya çıkar" --- ::: {.callout-note title="Bölüm bilgisi"} - **Grant'ın videosu:** [YouTube — Chapter 3: Derivative formulas through geometry](https://www.youtube.com/watch?v=S0_qX4VJhMQ&list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr&index=3) (≈17 dk) - **Kaynak:** [3Blue1Brown — Essence of Calculus](https://www.3blue1brown.com/topics/calculus) - **Okuma süresi:** ≈24 dk ::: ## Bu Derste Ne Var? {#sec-geo-intro} [Ders 2](02-turevin-paradoksu.qmd)'de türevin **ne olduğunu** (fark oranının limiti, teğet eğimi) tanımladık. Bu derste türev **formüllerini** hesaplamayı öğreniyoruz — ama ezberlenecek bir kurallar listesi olarak değil, **geometrik** olarak. Grant; $x^2$, $x^3$, $x^n$, $1/x$ ve $\sin$ gibi fonksiyonların türevlerini, küçük bir dürtmenin alana/hacme/yüksekliğe etkisini çizerek türetir. Sırrı: **küçük dürtmeler (tiny nudges)** hep işin kalbinde. **Üç ana fikir:** 1. **Kuvvet kuralı $d(x^n)/dx = n \cdot x^{n-1}$** — bir kareyi/küpü büyütmekten doğal olarak çıkar. 2. **$(dx)^2$ ihmal edilir** — "küçük bir değişimin karesi" ihmal edilebilir derecede küçüktür. 3. **$d(\sin\theta)/d\theta = \cos\theta$** — birim çemberde benzer üçgenle, grafiğe bakmadan. ```{mermaid} %%| label: fig-geo-map %%| fig-cap: "Bu bölümün geometrik temalı kavram haritası: her fonksiyon, kendi geometrisini büyüt → türev çıkar." flowchart TB subgraph "Geometrik nesneler" K["🟦 Kare (alan = x²)"] C["🧊 Küp (hacim = x³)"] S["💧 Su birikintisi (alan = 1)"] Ç["⭕ Birim çember (yüksek = sin θ)"] end K -->|"dx büyüt"| Td["d(x²) = 2x"] C -->|"dx büyüt"| Tk["d(x³) = 3x²"] S -->|"x büyüt"| To["d(1/x) = −1/x²"] Ç -->|"dθ adım"| Tt["d(sin θ) = cos θ"] Td --> P["Kuvvet kuralı d(xⁿ) = n·xⁿ⁻¹"] Tk --> P style P fill:#fce4ec,stroke:#c2185b,stroke-width:2px style Td fill:#e3f2fd,stroke:#1976d2 style Tk fill:#e3f2fd,stroke:#1976d2 style To fill:#e3f2fd,stroke:#1976d2 style Tt fill:#e3f2fd,stroke:#1976d2 ``` > *"never forget that tiny nudges are at the heart of derivatives."* — Grant, 1:32 ::: {.callout-tip title="Builder Notu — ML Köprüleri"} - **Her temel fonksiyonun türev kuralı = autodiff'in "primitif türev tablosu".** $x^2$, $x^n$, $1/x$, $\sin$… her biri framework'te kayıtlı bir yerel türev kuralıdır; backprop bunları zincirler. - **"$(dx)^2$ ihmal"** → birinci-derece (lineer) yaklaşım; yine dual sayılar ve Jacobian-vector product'ın temeli. - **$d(1/x) = -1/x^2$** → normalizasyon gradyanları: $1/\sigma$ (batch/layer norm), softmax paydası $1/\Sigma$ türevleri hep bu biçimde. - **$\sin/\cos$ türevleri** → sinüzoidal **positional encoding** ve Fourier özniteliklerinin gradyanları; rotary embedding (RoPE). - **Geometrik bakış** — "bu fonksiyon neyi temsil ediyor?" sorusu, bir işlemin gradyanını yapısal olarak anlamanın en sağlam yoludur. ::: ## Neden Soyut Türevler? Küçük Dürtmeler Kalbi {#sec-neden-soyut} Türevin ne demek olduğunu gördük; sıradaki adım onları **hesaplamak**: sana açık formüllü bir fonksiyon versem, türevinin formülünü bulabilmelisin. Peki neden calculus öğrencisinin vaktinin çoğu, somut hız problemleri yerine **soyut fonksiyonların** türevleriyle boğuşarak geçer? Çünkü gerçek dünyadaki olguların çoğu — calculus ile analiz etmek istediğimiz şeyler — polinomlar, trigonometrik fonksiyonlar, üsteller ve benzeri **saf fonksiyonlarla** modellenir. Bu saf fonksiyonların değişim oranlarında akıcılık kazanırsan, somut durumlardaki değişimleri konuşmak için bir dil edinmiş olursun. Ama bu süreç kolayca "bir kurallar listesi ezberlemek" gibi hissettirir — ve o his geldiğinde, türevlerin aslında **bir niceliğe verilen küçük bir değişimin, başka bir nicelikte yol açtığı küçük değişimle** ilişkisi olduğunu unutmak da kolaydır. Bu derste kuralları sezgisel ve geometrik düşüneceğiz; sakın küçük dürtmelerin türevin kalbinde olduğunu unutma. ::: {.callout-tip title="Builder Notu — Primitif Kural Kaydı"} Bu "saf fonksiyonların türev kurallarında akıcılık" tam olarak bir derin öğrenme framework'ünün yaptığı şeydir: PyTorch/JAX, bilinen her primitif işlem (üs alma, çarpma, exp, sin, log…) için yerel türevi bir tabloda tutar; karmaşık bir modelin gradyanını, bu temel kuralları **zincir kuralıyla** birleştirerek otomatik çıkarır. Yani bu ders, autodiff'in "kural kaydının" matematiksel kaynağıdır. ::: ## $d(x^2)/dx = 2x$ — Kareyi Büyütmek {#sec-kare} $f(x) = x^2$ fonksiyonunu al. Türevini soruyorsam: bir $x$ değerini (örneğin $x = 2$) alıp, ondan $dx$ kadar büyük bir değerle karşılaştırınca, fonksiyon değeri $df$ ne kadar değişir — ve özellikle $df/dx$ oranı nedir? Grafiğe bakarsak, $df/dx$ teğet doğrunun eğimidir ve $x$ büyüdükçe eğim artar ($x = 0$'da yatay, $x = 1$'de eğimli, $x = 2$'de daha dik). Ama grafiğe bakmak, kesin formülü bulmanın iyi yolu değil. Bunun için $x^2$'nin **ne anlama geldiğine** daha doğrudan bakalım: kenar uzunluğu $x$ olan bir **kare** düşün. ```{python} #| label: fig-kareyi-buyut #| fig-cap: "Kenarı $x$ olan kareyi $dx$ büyüt: alan değişimi $df$ = 2 dikdörtgen ($2x \\cdot dx$, mavi) + minik kare ($dx^2$, kırmızı, ihmal)." #| fig-width: 9 #| fig-height: 6.5 import numpy as np import matplotlib.pyplot as plt from matplotlib.patches import Rectangle x = 3.0 dx = 0.7 # görsel için büyük; matematikte dx → 0 fig, ax = plt.subplots(figsize=(9, 6.5)) # Orijinal kare ax.add_patch(Rectangle((0, 0), x, x, facecolor='#cbd5e0', edgecolor='#0f172a', linewidth=1.5, label='orijinal: $x^2$')) ax.text(x/2, x/2, '$x^2$', fontsize=22, ha='center', va='center', color='#0f172a') # İki dikdörtgen: sağda ve üstte (yatay + dikey) ax.add_patch(Rectangle((x, 0), dx, x, facecolor='#60a5fa', edgecolor='#1e3a8a', linewidth=1.5, alpha=0.85, label='$x \\cdot dx$ (×2 dikdörtgen)')) ax.add_patch(Rectangle((0, x), x, dx, facecolor='#60a5fa', edgecolor='#1e3a8a', linewidth=1.5, alpha=0.85)) ax.text(x + dx/2, x/2, '$x\\,dx$', fontsize=14, ha='center', va='center', color='#0f172a') ax.text(x/2, x + dx/2, '$x\\,dx$', fontsize=14, ha='center', va='center', color='#0f172a') # Köşedeki minik kare ax.add_patch(Rectangle((x, x), dx, dx, facecolor='#fca5a5', edgecolor='#7f1d1d', linewidth=1.5, label='$(dx)^2$ — ihmal')) ax.text(x + dx/2, x + dx/2, '$(dx)^2$', fontsize=10, ha='center', va='center', color='#7f1d1d') # Boyut göstergeleri ax.annotate('', xy=(x, -0.3), xytext=(0, -0.3), arrowprops=dict(arrowstyle='<->')) ax.text(x/2, -0.5, '$x$', fontsize=12, ha='center') ax.annotate('', xy=(x + dx, -0.3), xytext=(x, -0.3), arrowprops=dict(arrowstyle='<->')) ax.text(x + dx/2, -0.5, '$dx$', fontsize=12, ha='center') ax.set_xlim(-0.5, x + dx + 0.8) ax.set_ylim(-0.8, x + dx + 0.4) ax.set_aspect('equal') ax.set_title(r'$df = 2x\,dx + (dx)^2 \;\to\; \frac{df}{dx} = 2x \;\;(dx \to 0)$', fontsize=13) ax.legend(loc='lower right', fontsize=10) ax.set_xticks([]); ax.set_yticks([]) for s in ax.spines.values(): s.set_visible(False) plt.tight_layout() plt.show() ``` $x$'i küçük bir $dx$ kadar büyütürsen, karenin alanındaki değişim $df$'tir. Diyagramda üç yeni alan parçası belirir: **iki ince dikdörtgen** ve **minik bir kare**. İki dikdörtgenin her birinin kenarları $x$ ve $dx$, yani toplam $2 \cdot x \cdot dx$ yeni alan. Minik karenin alanı ise $(dx)^2$. Örneğin $x = 3$, $dx = 0{,}01$ ise: ince dikdörtgenler $2 \cdot 3 \cdot 0{,}01 = 0{,}06$ ($dx$'in $\sim 6$ katı), ama minik kare yalnızca $0{,}0001$ — ihmal edilebilir. > *"a good rule of thumb is that you can ignore anything that includes a dx raised to a power greater than one ... a tiny change squared is a negligible change."* — Grant, 3:57 Geriye $df$'in $dx$'in bir katı olması kalır; o kat da türevdir: $$ \frac{df}{dx} = \frac{2x \, dx + (dx)^2}{dx} = 2x + dx \;\to\; 2x $$ $x = 3$'te oran $2 \cdot 3 = 6$, $x = 5$'te $2 \cdot 5 = 10$ birim alan / birim uzunluk. ::: {.callout-tip title="Builder Notu — Lineer vs Eğrilik"} İki dikdörtgen (mertebe $dx$) "korunur", minik kare (mertebe $dx^2$) "atılır" — bu, türevin **birinci-derece (lineer)** bir nesne olmasının geometrik yüzüdür. ML'de gradient de tam böyle: parametredeki küçük değişimin kayba **lineer** katkısını yakalar; ikinci derece etkiler (eğrilik) Hessian'a kalır. $dx^2$ atmak, "yerel olarak fonksiyon düzdür" yaklaşımının ta kendisidir. ::: ## $d(x^3)/dx = 3x^2$ — Küpü Büyütmek {#sec-kup} Şimdi $f(x) = x^3$. [Ders 2](02-turevin-paradoksu.qmd)'de cebirsel yaptığımız şeyin geometrik hâli bu. $x^3$'ü, kenar uzunluğu $x$ olan gerçek bir **küpün hacmi** olarak düşünebiliriz. $x$'i $dx$ kadar büyütünce ortaya çıkan hacim artışı, kenarı $x+dx$ olan kübün, kenarı $x$ olan orijinal kübe ait olmayan kısmıdır. ```{python} #| label: fig-kupu-buyut #| fig-cap: "Küpü $dx$ büyüt: üç ince yüz ($3 \\cdot x^2 \\cdot dx$, mavi) ana katkı; üç çubuk ($3 \\cdot x \\cdot dx^2$) ve köşedeki minik küp ($dx^3$) ihmal edilir." #| fig-width: 9 #| fig-height: 6 from mpl_toolkits.mplot3d.art3d import Poly3DCollection x_val = 1.2 dx_val = 0.32 fig = plt.figure(figsize=(9, 6)) ax = fig.add_subplot(111, projection='3d') def kup_yuzleri(x0, y0, z0, dx, dy, dz, color, alpha=0.7, edge='#0f172a'): """Bir küboit çiz.""" p = [ [(x0, y0, z0), (x0+dx, y0, z0), (x0+dx, y0+dy, z0), (x0, y0+dy, z0)], # alt [(x0, y0, z0+dz), (x0+dx, y0, z0+dz), (x0+dx, y0+dy, z0+dz), (x0, y0+dy, z0+dz)], # üst [(x0, y0, z0), (x0+dx, y0, z0), (x0+dx, y0, z0+dz), (x0, y0, z0+dz)], # ön [(x0, y0+dy, z0), (x0+dx, y0+dy, z0), (x0+dx, y0+dy, z0+dz), (x0, y0+dy, z0+dz)], # arka [(x0, y0, z0), (x0, y0+dy, z0), (x0, y0+dy, z0+dz), (x0, y0, z0+dz)], # sol [(x0+dx, y0, z0), (x0+dx, y0+dy, z0), (x0+dx, y0+dy, z0+dz), (x0+dx, y0, z0+dz)] # sağ ] pc = Poly3DCollection(p, facecolor=color, edgecolor=edge, linewidth=0.8, alpha=alpha) ax.add_collection3d(pc) # Ana küp (gri, yarı şeffaf) kup_yuzleri(0, 0, 0, x_val, x_val, x_val, '#cbd5e0', alpha=0.45) # 3 yüz (x²·dx) kup_yuzleri(x_val, 0, 0, dx_val, x_val, x_val, '#60a5fa', alpha=0.85) # sağ kup_yuzleri(0, x_val, 0, x_val, dx_val, x_val, '#60a5fa', alpha=0.85) # arka kup_yuzleri(0, 0, x_val, x_val, x_val, dx_val, '#60a5fa', alpha=0.85) # üst # 3 çubuk (x·dx²) — ince kup_yuzleri(x_val, x_val, 0, dx_val, dx_val, x_val, '#fca5a5', alpha=0.95) kup_yuzleri(x_val, 0, x_val, dx_val, x_val, dx_val, '#fca5a5', alpha=0.95) kup_yuzleri(0, x_val, x_val, x_val, dx_val, dx_val, '#fca5a5', alpha=0.95) # Köşe minik küp (dx³) kup_yuzleri(x_val, x_val, x_val, dx_val, dx_val, dx_val, '#7f1d1d', alpha=1.0, edge='#450a0a') ax.set_xlim(0, x_val + dx_val + 0.1) ax.set_ylim(0, x_val + dx_val + 0.1) ax.set_zlim(0, x_val + dx_val + 0.1) ax.set_box_aspect((1,1,1)) ax.view_init(elev=22, azim=42) ax.set_xlabel('x', labelpad=-8); ax.set_ylabel('y', labelpad=-8); ax.set_zlabel('z', labelpad=-8) ax.set_xticks([]); ax.set_yticks([]); ax.set_zticks([]) ax.set_title(r'Küpü $dx$ büyüt: 3 mavi yüz $(3x^2\,dx)$ = türev, kırmızı parçalar atılır', fontsize=11, pad=10) plt.tight_layout() plt.show() ``` Bu yeni hacmin neredeyse tamamı **üç kare yüzden** gelir ($dx \to 0$ iken bu üç yüz, yeni hacmin %100'üne yaklaşır). Her ince yüzün hacmi $x^2 \cdot dx$ (yüzün alanı çarpı $dx$ kalınlık), yani toplam $3x^2 \cdot dx$. Kenarlardaki ince çubuklar ve köşedeki minik küp ise $(dx)^2$ ve $(dx)^3$ ile orantılı — $dx$'e bölününce hayatta kalmazlar, güvenle atılır. $$ df \approx 3x^2 \, dx \qquad \frac{df}{dx} = 3x^2 $$ ::: {.callout-tip title="Builder Notu — Boyut → Katsayı"} $x^2 \to$ 2 dikdörtgen, $x^3 \to$ 3 kare yüz. Bu "boyut sayısı kadar yüzey katkısı" örüntüsü, kuvvet kuralındaki katsayının ($n$) nereden geldiğini gösterir. ML açısından önemli olan ders: bir fonksiyonun gradyanını, onun **geometrik/yapısal anlamından** okumak, formülü ezberlemekten hem daha güvenilir hem genelleştirilebilirdir. ::: ## Kuvvet Kuralı: $d(x^n)/dx = n \cdot x^{n-1}$ {#sec-kuvvet} Pratikte $x^2$ için her seferinde kareyi, $x^3$ için küpü düşünmezsin; ikisi de tanınabilir bir örüntüye uyar. $x^4$'ün türevi $4x^3$, $x^5$'in türevi $5x^4$, ve genel olarak: $$ \frac{d}{dx}\, x^n = n\, x^{n-1} $$ Buna **kuvvet kuralı** denir. Sembolik olarak: üs öne iner, geriye kendinden bir eksiğini bırakır. Ama neden çalıştığını $n = 2, 3$'ün ötesinde de görelim. $x$'i $x+dx$'e ittiğinde, $x+dx$'in $n$ kopyasını çarpman gerekir: $$ (x+dx)^n = x^n + n\, x^{n-1}\, dx + \cdots $$ İlk terim $x^n$ (orijinal karenin alanı / kübün hacmi gibi). Sonraki terimler için: $n$ parantezden **yalnızca birinden** $dx$, geri kalanından $x$ seçersin — bunu yapmanın $n$ yolu var, her biri $x^{n-1} \cdot dx$ verir, toplam $n \cdot x^{n-1} \cdot dx$. Açılımdaki diğer tüm terimler $(dx)^2$ ve üzeri içerir; $dx$'e bölününce hayatta kalmazlar. Geriye $n \cdot x^{n-1}$ kalır. > *"the derivative of x to the n for any power n is n times x to the n minus 1 ... the power rule."* — Grant, 7:28 ::: {.callout-tip title="Builder Notu — Birinci Derece"} Kuvvet kuralı, autodiff'in en temel kayıtlı kuralıdır. Ama asıl ML dersi açılımda gizli: $(x+dx)^n$'in yalnızca **birinci-derece** terimini tutmak, forward-mode autodiff'in dual sayılarıyla ($\varepsilon^2 = 0$) birebir aynıdır. Yüksek-dereceli terimleri taşımak ikinci-derece bilgi (eğrilik/Hessian) gerektirir; çoğu eğitim yalnızca birinci dereceyle (gradient) çalışır çünkü ucuz ve ölçeklenebilir. ::: ## $d(1/x)/dx = -1/x^2$ — Su Birikintisi {#sec-bir-bolu-x} $f(x) = 1/x$'i ele al. Bir yandan kuvvet kuralını körü körüne uygulayabilirsin: $1/x = x^{-1}$, üs ($-1$) öne iner ve bir eksiği ($-2$) kalır $\to -x^{-2} = -1/x^2$. Ama bunu geometrik olarak da görelim. $1/x$, "$x$ ile çarpınca 1 eden sayı" demek. Şöyle hayal et: alanı 1 olan dikdörtgen bir su birikintisi; genişliği $x$ ise, yüksekliği $1/x$ olmak zorunda (çünkü alan = 1). $x$'i 2'ye uzatırsan yükseklik $1/2$'ye iner; 3'e çıkarırsan $1/3$'e sıkışır. ```{python} #| label: fig-su-birikintisi #| fig-cap: "Alanı sabit 1 olan dikdörtgen su birikintisi: genişlik $x$ artarsa, yükseklik $1/x$ azalır. $d(1/x)$, üstten kaybedilen ile sağda kazanılan alanları eşitleyerek $-1/x^2$ verir." #| fig-width: 11 #| fig-height: 4 fig, axes = plt.subplots(1, 3, figsize=(11, 4), sharey=True) xlist = [1.0, 2.0, 3.0] for ax, xv in zip(axes, xlist): h = 1.0 / xv ax.add_patch(Rectangle((0, 0), xv, h, facecolor='#60a5fa', edgecolor='#1e3a8a', linewidth=1.5, alpha=0.75)) ax.text(xv/2, h/2, f'alan = {xv * h:.1f}', fontsize=11, ha='center', va='center', color='#0f172a') ax.set_xlim(0, 3.5) ax.set_ylim(0, 1.3) ax.set_title(f'$x = {xv:.0f}$, yükseklik = $1/x = {h:.3f}$', fontsize=11) ax.set_aspect('equal') ax.grid(alpha=0.3) ax.set_xlabel('$x$', fontsize=11) if ax is axes[0]: ax.set_ylabel('$1/x$', fontsize=11) fig.suptitle('Alanı 1 olan birikinti: $x$ büyür → yükseklik küçülür', fontsize=12, y=1.02) plt.tight_layout() plt.show() ``` Şimdi $x$'i $dx$ kadar büyüt. Birikintinin alanı 1 sabit kalsın diye yükseklik ne kadar değişmeli? Genişliği $dx$ artırmak sağda yeni alan ekler (($1/x) \cdot dx$ kadar); bunu dengelemek için yükseklik $d(1/x)$ kadar **azalmalı** (negatif), öyle ki üstten kaybedilen alan ($x \cdot |d(1/x)|$) sağda kazanılanı götürsün: $$ \frac{1}{x}\,dx = -x \cdot d\left(\frac{1}{x}\right) \qquad \frac{d}{dx}\left(\frac{1}{x}\right) = -\frac{1}{x^2} $$ Körü körüne kuvvet kuralının verdiğiyle birebir aynı — ama şimdi **neden** negatif ve neden $1/x^2$ olduğunu görüyorsun. (Aynı muhakemeyle $\sqrt{x}$'in türevini de bulmayı dene.) ::: {.callout-tip title="Builder Notu — Normalizasyon"} $d(1/x) = -1/x^2$ işareti ve büyüklüğü ML'de her yerde: bir kaybı $1/\sigma$ ile ölçeklerken (batch/layer norm) veya softmax paydası $1/\Sigma$ türevini alırken, "payda büyürse çıktı küçülür, hem de kare oranında" davranışı tam budur. Ters-orantılı bir niceliğin gradyanı her zaman negatif ve karesel sönümlüdür — normalizasyon katmanlarının geri yayılımının özü. ::: ## $d(\sin\theta)/d\theta = \cos\theta$ — Birim Çember {#sec-sin} Son olarak trigonometrik bir fonksiyon: $\sin$. Birim çemberi (orijin merkezli, yarıçapı 1) hatırla. Bir $\theta$ değeri için, en sağ noktadan başlayıp çember üzerinde $\theta$ kadar **yay uzunluğu** yürürsün; yarıçap 1 olduğundan açı da tam $\theta$ radyandır. $\sin(\theta)$, o noktanın $x$-ekseni üzerindeki **yüksekliğidir**. $\theta$ arttıkça yükseklik $-1$ ile $1$ arasında inip çıkar — $\sin$ grafiği o klasik dalga. Grafiğe bakarak türevin şeklini sezebiliriz: $\theta = 0$'da eğim pozitif ($\sin$ artıyor), tepede sıfıra iner, sonra bir süre negatif, sonra yine sıfır… Tepe ve çukurlar cosine ile birebir hizalanır, dolayısıyla türevin $\cos\theta$ olduğunu tahmin edersin. Doğru — ama neden tam olarak cosine, sadece "benzer şekilli yeni bir fonksiyon" değil? Kesin neden, grafiğe değil fonksiyonun temsil ettiği şeye bakmakta. Çember üzerindeki noktaya yakınlaş ve çevre boyunca küçük bir $d\theta$ adımı at. Bu kadar yakında çember neredeyse düz bir doğru gibi; küçük bir **dik üçgen** düşün: hipotenüsü çevre boyunca atılan $d\theta$ adımı, dikey kenarı ise yükseklikteki değişim, yani $d(\sin\theta)$. Bu minik üçgen, açısı $\theta$ ve hipotenüsü yarıçap (uzunluk 1) olan **büyük üçgene benzerdir**. ```{python} #| label: fig-birim-cember #| fig-cap: "Birim çember üzerinde $\\theta$ noktası ile $d\\theta$ adımı: küçük üçgen büyük üçgene benzer. Türev = komşu kenar / hipotenüs = $\\cos\\theta$." #| fig-width: 8 #| fig-height: 8 fig, ax = plt.subplots(figsize=(8, 8)) # Birim çember theta_full = np.linspace(0, 2*np.pi, 400) ax.plot(np.cos(theta_full), np.sin(theta_full), color='#94a3b8', linewidth=1.5) # Eksenler ax.axhline(0, color='#cbd5e0', linewidth=0.8) ax.axvline(0, color='#cbd5e0', linewidth=0.8) theta = np.deg2rad(40) dtheta = np.deg2rad(15) # büyük gösterim için # P ve Q noktaları Px, Py = np.cos(theta), np.sin(theta) Qx, Qy = np.cos(theta + dtheta), np.sin(theta + dtheta) # Yarıçap ax.plot([0, Px], [0, Py], color='#1e3a8a', linewidth=2) ax.text(Px*0.45, Py*0.55 - 0.05, '$1$', fontsize=14, color='#1e3a8a') ax.text(0.18, 0.05, '$\\theta$', fontsize=14, color='#1e3a8a') # Büyük üçgen (yarıçap üçgeni) ax.plot([Px, Px], [0, Py], color='#1e3a8a', linewidth=1.5, linestyle=':') ax.plot([0, Px], [0, 0], color='#1e3a8a', linewidth=1.5, linestyle=':') ax.text(Px + 0.04, Py/2, '$\\sin\\theta$', fontsize=12, color='#1e3a8a') ax.text(Px/2, -0.08, '$\\cos\\theta$', fontsize=12, color='#1e3a8a', ha='center') # Küçük üçgen ax.plot([Px, Qx], [Py, Qy], color='#dc2626', linewidth=3) # hipotenüs = dθ ax.plot([Qx, Qx], [Py, Qy], color='#dc2626', linewidth=2) # dikey = d(sin θ) ax.plot([Px, Qx], [Py, Py], color='#dc2626', linewidth=2) # yatay # Noktalar ax.plot(Px, Py, 'o', color='#1e3a8a', markersize=8, zorder=5) ax.plot(Qx, Qy, 'o', color='#dc2626', markersize=8, zorder=5) # Etiketler ax.annotate('$d\\theta$', xy=((Px+Qx)/2, (Py+Qy)/2), xytext=((Px+Qx)/2 + 0.25, (Py+Qy)/2 + 0.18), fontsize=14, color='#dc2626', arrowprops=dict(arrowstyle='->', color='#dc2626')) ax.annotate('$d(\\sin\\theta)$', xy=(Qx, (Py+Qy)/2), xytext=(Qx - 0.55, (Py+Qy)/2 - 0.1), fontsize=12, color='#dc2626') # Küçük üçgenin "θ açısı" yıldızla ax.text(Px - 0.05, Py + 0.04, '$\\theta$', fontsize=11, color='#7f1d1d') ax.set_xlim(-1.3, 1.4) ax.set_ylim(-1.3, 1.4) ax.set_aspect('equal') ax.grid(alpha=0.3) ax.set_title(r'Küçük üçgen ~ büyük üçgen: $\frac{d(\sin\theta)}{d\theta} = \frac{\text{adj}}{\text{hyp}} = \cos\theta$', fontsize=12) ax.set_xticks([-1, 0, 1]); ax.set_yticks([-1, 0, 1]) plt.tight_layout() plt.show() ``` $$ \frac{d(\sin\theta)}{d\theta} = \frac{\text{adjacent}}{\text{hypotenuse}} = \cos\theta $$ $\theta$'ya komşu kenar bölü hipotenüs — bu zaten cosine'ın tanımı. Demek ki: $$ \frac{d}{d\theta}\sin(\theta) = \cos(\theta) $$ > *"adjacent divided by hypotenuse, that's exactly what the cosine of theta means."* — Grant, 16:24 ::: {.callout-tip title="Builder Notu — Fourier ve RoPE"} $\sin$'in türevinin $\cos$ olması, sinüzoidlerin türev altında kendi içlerinde dönmesi demektir ($\sin \to \cos \to -\sin \to -\cos \to \sin$). Bu kapalılık, **Fourier analizi** ve transformer'lardaki **sinüzoidal positional encoding**'in temelidir: konum bilgisini farklı frekanslı $\sin/\cos$ çiftleriyle kodlarsın, ve türev/kaydırma işlemleri bu tabanda temiz (lineer) kalır. Rotary positional embedding (RoPE) de bu döngüsel yapıyı doğrudan kullanır. ::: ## Bu Dersin Özeti {#sec-ozet-3} 1. Türev formülleri ezberlenecek kurallar değil; "girdiye küçük dürtme → çıktıda küçük değişim" geometrisinden çıkar. 2. $d(x^2)/dx = 2x$: kareyi $dx$ büyüt → iki $x \cdot dx$ çubuğu; minik kare ($dx^2$) atılır. 3. $d(x^3)/dx = 3x^2$: küpü $dx$ büyüt → üç $x^2 \cdot dx$ yüzü; kenar/köşe parçaları atılır. 4. Kuvvet kuralı $d(x^n)/dx = n \cdot x^{n-1}$: $(x+dx)^n$ açılımında $dx$'i $n$ paranteziden birinden seçmenin $n$ yolu → $n \cdot x^{n-1} \cdot dx$. 5. $(dx)^2$ ve daha yüksek kuvvetler her zaman atılır — türev özünde **birinci-derece** bir nesnedir. 6. $d(1/x)/dx = -1/x^2$: alanı sabit su birikintisi; körü körüne kuvvet kuralıyla ($x^{-1} \to -x^{-2}$) aynı sonuç. 7. $d(\sin\theta)/d\theta = \cos\theta$: birim çemberde benzer üçgen; komşu kenar / hipotenüs = $\cos\theta$. ::: {.callout-important title="Tek bir cümle"} Her türev formülü, fonksiyonun temsil ettiği geometrik nesneyi (kare, küp, su birikintisi, çember) $dx$ kadar büyütüp "birinci-derece" değişimi okumaktan çıkar; $(dx)^2$ atılır, çünkü türev özünde yerel bir lineer yaklaşımdır. ::: ## Kontrol Soruları {#sec-sorular-3} ::: {.callout-note collapse="true" title="Soru 1: d(x⁴)/dx'i, (x+dx)⁴ açılımındaki birinci-derece terimi düşünerek bul."} **Cevap:** $(x+dx)^4 = x^4 + 4x^3 \cdot dx + (dx^2$ ve daha yüksek terimler$)$. İlk terim $x^4$ orijinal değer; $dx$'i dört parantezden birinden seçmenin 4 yolu var, her biri $x^3 \cdot dx$ → toplam $4x^3 \cdot dx$. Geri kalan terimler $dx^2$ içerir, $dx$'e bölününce kaybolur. Sonuç: $d(x^4)/dx = 4x^3$ (kuvvet kuralıyla uyumlu). ::: ::: {.callout-note collapse="true" title="Soru 2: d(x²)/dx'te minik kareyi ((dx)²) neden atıyoruz ama iki dikdörtgeni (2x·dx) tutuyoruz?"} **Cevap:** İkisi de $df$'e (alan değişimine) katkı verir. Ama $df/dx$ oranına bakınca: $2x \cdot dx$ terimi $dx$'e bölününce $2x$ (sabit) kalır; $(dx)^2$ terimi ise $dx$'e bölününce $dx$ olur ve $dx \to 0$'da sıfıra gider. Yani limitte yalnızca **birinci-derece** (tek $dx$'li) terim hayatta kalır; $(dx)^2$ "ikinci-derece" katkıdır ve türevde görünmez. ::: ::: {.callout-note collapse="true" title="Soru 3: d(√x)/dx'i kuvvet kuralıyla bul ve x = 0'da ne olduğunu söyle."} **Cevap:** $\sqrt{x} = x^{1/2}$. Kuvvet kuralı: üs $(1/2)$ öne iner, bir eksiği $(-1/2)$ kalır → $(1/2) \cdot x^{-1/2} = 1/(2\sqrt{x})$. $x$ büyüdükçe türev küçülür (eğri yatıklaşır). $x = 0$'da $1/(2 \cdot 0)$ tanımsızdır — grafiğin orada **dikey teğeti** vardır (eğim sonsuza gider). ::: ::: {.callout-note collapse="true" title="Soru 4: (Builder) sin'in türevinin cos olması, positional encoding'de neden işe yarar?"} **Cevap:** $\sin$ ve $\cos$ türev (ve kaydırma) altında birbirine dönüşür: $\sin \to \cos \to -\sin \to -\cos \to \sin$. Bu kapalılık sayesinde, konumu farklı frekanslı $\sin/\cos$ çiftleriyle kodlarsan, bir konum kaymasını sabit bir lineer dönüşüm (rotasyon) temsil eder. Transformer'ın göreli konumu kolayca öğrenmesini sağlayan budur; rotary positional embedding (RoPE) bu döngüsel/rotasyonel yapıyı doğrudan kullanır. ::: ## Egzersizler {#sec-egzersizler-3} **Egzersiz 1.** $(x+dx)^5$ açılımının birinci-derece terimini bularak $d(x^5)/dx$'i hesapla; kuvvet kuralının ($5x^4$) doğrulandığını göster. **Egzersiz 2.** Kareyi büyütme diyagramında $x = 10$, $dx = 0{,}1$ al. İki ince dikdörtgenin toplam alanını ($2 \cdot x \cdot dx$) ve minik karenin alanını ($(dx)^2$) sayısal hesapla. Minik kare, dikdörtgenlerin yüzde kaçı? $dx$'i $0{,}01$'e düşürünce bu oran ne olur? **Egzersiz 3.** $d(\cos\theta)/d\theta$'yı birim çemberde benzer üçgenle türet. (İpucu: $d\theta$ adımının yataydaki bileşenine ve işaretine bak; sonucun $-\sin\theta$ çıkması gerekir.) **Egzersiz 4.** *(Python — görsel doğrulama)* SymPy ile temel türevleri sembolik al, sonra $\sin$ ile $\cos$'u üst üste çizip türev ilişkisini gör. ```{python} #| label: fig-sin-cos #| fig-cap: "$\\sin$'in türevi $\\cos$: $\\sin$'in tepe ve çukurlarında $\\cos$ sıfıra iner, ve tersi. Türev geometrisi grafiklerden net görülür." #| fig-width: 10 #| fig-height: 4.5 import sympy as sp x_sym = sp.symbols("x") for f in [x_sym**2, x_sym**3, x_sym**5, 1/x_sym, sp.sqrt(x_sym), sp.sin(x_sym)]: print(f, "->", sp.diff(f, x_sym)) th = np.linspace(0, 4*np.pi, 400) fig, ax = plt.subplots(figsize=(10, 4.5)) ax.plot(th, np.sin(th), color='#1e3a8a', linewidth=2.2, label='$\\sin(\\theta)$') ax.plot(th, np.cos(th), color='#c2410c', linewidth=2.2, label="türev = $\\cos(\\theta)$") ax.axhline(0, color='#94a3b8', linewidth=0.8) for k in range(5): ax.axvline(k*np.pi/2 + np.pi/2, color='#cbd5e0', linewidth=0.5, alpha=0.5) ax.set_xlabel('$\\theta$ (rad)', fontsize=11) ax.legend(fontsize=11, loc='upper right') ax.grid(alpha=0.3) ax.set_title("$\\sin$'in tepe ve çukurları ↔ $\\cos$'un sıfırları") plt.tight_layout() plt.show() ``` **Egzersiz 5.** *(Sonraki dersin habercisi)* $f(x) = \sin(x^2)$ gibi bir **bileşke** fonksiyonu düşün: dış fonksiyon $\sin$ (türevi $\cos$), iç fonksiyon $x^2$ (türevi $2x$). Bu ikisini nasıl birleştirip $f$'in türevini bulursun? Tahminini yaz — Ders 4, bileşke fonksiyonlar için **zincir kuralını** anlatacak. ## Sonraki Ders İçin Hazırlık {#sec-sonraki-3} **Ders 4: Zincir Kuralı ve Çarpım Kuralı (Görsel)** Bu derste tek tek fonksiyonların türevlerini öğrendik. Ders 4, bunları **birleştirmeyi** ele alıyor: toplam ($f+g$), çarpım ($f \cdot g$) ve bileşke ($f(g(x))$) fonksiyonların türevleri. Her birini yine geometrik/sezgisel olarak — çarpımı bir dikdörtgenin alanı, bileşkeyi ardışık dürtmeler olarak — göreceğiz. Zincir kuralı, ML için en kritik olanı: backprop'un tam kalbidir. ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat-3} | Kavram | Tanım | Grant'ta | |--------|-------|----------| | **$d(x^2)/dx = 2x$** | Kareyi $dx$ büyüt: iki $x \cdot dx$ çubuğu (minik kare atılır) | 2m35 | | **$d(x^3)/dx = 3x^2$** | Küpü $dx$ büyüt: üç $x^2 \cdot dx$ yüzü | 4m42 | | **$(dx)^2$ ihmali** | Küçük değişimin karesi negligible; türev birinci-derecedir | 3m57 | | **Kuvvet kuralı** | $d(x^n)/dx = n \cdot x^{n-1}$; $(x+dx)^n$ açılımından | 7m28 | | **$d(1/x)/dx = -1/x^2$** | Alanı sabit su birikintisi (genişlik $x$, yükseklik $1/x$) | 10m08 | | **$d(\sqrt{x})/dx = 1/(2\sqrt{x})$** | $x^{1/2}$ için kuvvet kuralı | 12m25 | | **$d(\sin\theta)/d\theta = \cos\theta$** | Birim çemberde benzer üçgen: adjacent / hypotenuse | 12m38 | | **Geometrik türetim** | "Fonksiyon neyi temsil ediyor?" → diyagramı büyüt | 2m30 | | **Tiny nudge sezgisi** | Türevin kalbi: küçük dürtme → küçük değişim | 1m32 | ## ML Bağlantıları Özeti {#sec-ml-3} ::: {.callout-tip title="7 köprü"} 1. **Temel türev tablosu** → autodiff'in primitif kural kaydı: her işlemin (üs, çarpım, exp, sin, log) yerel türevi tanımlı. 2. **$(dx)^2$ ihmali** → birinci-derece/lineer yaklaşım; dual sayılar ($\varepsilon^2 = 0$); gradient eğriliği (Hessian) taşımaz. 3. **Kuvvet kuralı katsayısı** → $n \cdot x^{n-1}$; "$n$ yüz/çubuk" geometrisi, gradyan büyüklüğünün ölçeğini belirler. 4. **$d(1/x) = -1/x^2$** → normalizasyon gradyanları ($1/\sigma$, softmax paydası $1/\Sigma$): negatif ve karesel sönümlü. 5. **$\sin/\cos$ kapalılığı** → Fourier öznitelikleri, sinüzoidal positional encoding, rotary embedding (RoPE). 6. **"Fonksiyon neyi temsil ediyor" geometrik bakışı** → bir operatörün gradyanını ezberlemeden, yapısal olarak okumak. 7. **(Sonraki) zincir kuralı** → backprop; bu dersin temel kuralları, bileşke fonksiyonlarda zincirlenecek. ::: ::: {.callout-important title="Tek bir şey alıp gideceksen"} Türev formülleri gökten inmez. $x^2$'yi bir kare, $x^3$'ü bir küp, $1/x$'i alanı sabit bir su birikintisi, $\sin\theta$'yı bir çember yüksekliği olarak görüp $dx$ kadar büyüt — formül, birinci-derece değişimi okumaktan kendiliğinden çıkar. $(dx)^2$ hep atılır, çünkü türev yerel bir lineer yaklaşımdır. :::

4 Geometriyle Türev Formülleri

4.1 Bu Derste Ne Var?

4.2 Neden Soyut Türevler? Küçük Dürtmeler Kalbi

4.3 \(d(x^2)/dx = 2x\) — Kareyi Büyütmek

4.4 \(d(x^3)/dx = 3x^2\) — Küpü Büyütmek

4.5 Kuvvet Kuralı: \(d(x^n)/dx = n \cdot x^{n-1}\)

4.6 \(d(1/x)/dx = -1/x^2\) — Su Birikintisi

4.7 \(d(\sin\theta)/d\theta = \cos\theta\) — Birim Çember

4.8 Bu Dersin Özeti

4.9 Kontrol Soruları

4.10 Egzersizler

4.11 Sonraki Ders İçin Hazırlık

4.12 Anahtar Kavramlar (Cheat Sheet)

4.13 ML Bağlantıları Özeti