flowchart LR
F["f(x)"] --> T0["c₀ = f(a)<br/>(değer)"]
F --> T1["c₁ = f'(a)<br/>(eğim, gradient)"]
F --> T2["c₂ = f''(a)/2!<br/>(eğrilik, Hessian)"]
F --> Tn["cₙ = f⁽ⁿ⁾(a)/n!<br/>(yüksek mertebe)"]
T0 --> P["P(x) = Σ cₙ·(x−a)ⁿ"]
T1 --> P
T2 --> P
Tn --> P
P --> O["ML\: Newton's method,<br/>trust region, GELU yaklaşımı"]
style T1 fill:#e3f2fd,stroke:#1976d2
style T2 fill:#fff3e0,stroke:#f57c00,stroke-width:2px
style O fill:#fce4ec,stroke:#c2185b
12 Taylor Serileri
Tek nokta türev bilgisini civar davranışa çevirme
- Grant’ın videosu: YouTube — Chapter 11: Taylor series (≈22 dk)
- Kaynak: 3Blue1Brown — Essence of Calculus
- Okuma süresi: ≈28 dk
12.1 Bu Derste Ne Var?
Taylor serileri, matematiğin fonksiyon yaklaşımı için sunduğu en güçlü araçlardan biridir. Temel fikir: polinom-olmayan bir fonksiyonu, bir nokta civarında polinomlarla yaklaştırmak — çünkü polinomları hesaplamak, türevlemek ve integrallemek çok daha kolaydır.
Üç ana fikir:
- Taylor polinomu: bir fonksiyonu bir noktada polinomla yaklaştır; polinomun katsayıları, türevleri o noktada eşleştirir (değer, eğim, eğrilik…).
- n. terimin katsayısı = \(f^{(n)}(0) / n!\) — faktöriyel, kuvvet kuralının kademeli etkisini götürür.
- Taylor serisi (sonsuz terim): bazen her yerde yakınsar (\(e^x\), \(\sin\), \(\cos\)), bazen yalnızca bir yakınsama yarıçapı içinde.
“they translate derivative information at a single point to approximation information around that point.” — Grant, 21:33
- Birinci-derece Taylor → gradient / lineerleştirme: \(f(x) \approx f(a) + f'(a)(x-a)\); gradient descent adımı tam bu yerel lineer modeldir.
- İkinci-derece Taylor → Hessian, Newton’s method: \(f(x) \approx \ldots + \tfrac{1}{2} f''(a)(x-a)^2\); trust region, doğal gradyan ve ikinci-derece optimizer’lar bu kuadratik modeli kullanır.
- \(e^x\) serisi → softmax/exp hesabı; GELU’nun tanh/erf ile yaklaşımı, sigmoid açılımları.
- “Tek noktadaki türev bilgisi → civardaki davranış” → yerel / surrogate modeller, RL ve kontrolde sistemi bir nokta civarında lineerleştirme.
- Yakınsama yarıçapı → bir yaklaşımın geçerli kaldığı bölge; sayısal serilerin ve aktivasyon yaklaşımlarının sınırı.
12.2 Neden Taylor? Polinomla Yaklaşmak
Grant’ın bu fikri ilk kavradığı an bir fizik dersinde olmuş: bir sarkacın potansiyel enerjisi \(1 - \cos(\theta)\) ile orantılıydı ve bu cosine ifadesi problemi hantal yapıyordu. Ama \(\cos(\theta)\)’yı \(1 - \theta^2/2\) ile yaklaştırınca her şey yerine oturdu.
Motivasyon, polinomların diğer fonksiyonlardan çok daha uysal olması: kolay hesaplanır, kolay türevlenir, kolay integrallenir.
ML’de bir fonksiyonu yerel olarak basit bir modelle değiştirmek her yerdedir. Gradient descent, kaybı bir noktada birinci-derece (lineer) Taylor ile değiştirir ve o yönde adım atar. Newton’s method ve trust-region yöntemleri ikinci-derece (kuadratik) Taylor kullanır.
12.3 \(\cos(x)\)’i Parabolle Yaklaştırmak
\(\cos(x)\)’i \(x = 0\) civarında bir kuadratikle yaklaştıralım:
\[ P(x) = c_0 + c_1 x + c_2 x^2 \]
Üç koşulu sırayla dayatıyoruz:
- Değer eşleşsin: \(\cos(0) = 1\). \(P(0) = c_0\), dolayısıyla \(c_0 = 1\).
- Eğim eşleşsin: \(\cos' = -\sin\), \(x = 0\)’da 0. \(P'(x) = c_1 + 2c_2 x\), \(x = 0\)’da \(c_1\). Dolayısıyla \(c_1 = 0\).
- Eğrilik eşleşsin: \(\cos'' = -\cos\), \(x = 0\)’da \(-1\). \(P''(x) = 2c_2\). Dolayısıyla \(c_2 = -1/2\).
\[ \cos(x) \approx 1 - \frac{1}{2}x^2 \]
\(\cos(0{,}1)\)’i bu polinomla tahmin edersen \(0{,}995\) çıkar — ve \(\cos(0{,}1)\)’in gerçek değeri de \(0{,}995\). Üç serbestlik derecesi sırasıyla değeri, eğimi ve eğriliği \(\cos\) ile eşleştirdi.
Bu “değer + eğim + eğrilik eşleştirme” tam olarak ikinci-derece optimizasyonun yaptığıdır. Newton’s method, kaybı bir noktada bu üç bilgiyle (\(f\), \(f'\), \(f''\)) kuadratik bir parabolle değiştirir ve doğrudan o parabolün minimumuna atlar.
12.4 Daha Çok Terim: Faktöriyeller
Daha çok serbestlik için terim ekle. \(c_3 x^3\) eklersen: bir kübiğin üçüncü türevi \(1 \cdot 2 \cdot 3 \cdot c_3 = 6c_3\)’tür. \(\cos\)’un üçüncü türevi \(\sin x\), \(x = 0\)’da 0. Eşleşmesi için \(c_3 = 0\).
\(c_4 x^4\) eklersen iyileşme olur. \(\cos\)’un dördüncü türevi yine \(\cos\)’tur, \(x = 0\)’da 1. Polinomun dördüncü türevi \(1 \cdot 2 \cdot 3 \cdot 4 \cdot c_4 = 24c_4\):
\[ c_4 = \frac{\cos^{(4)}(0)}{4!} = \frac{1}{24} \]
Faktöriyeller doğal olarak çıkar: \(x^n\)’in \(n\) ardışık türevini alınca kuvvet kuralı kademeli iner ve geriye \(1 \cdot 2 \cdot 3 \cdots n = n!\) kalır.
\(x^n\)’in türevlerinden çıkan \(n!\) faktörü, neden Taylor katsayılarında ve dolayısıyla \(\exp\)/softmax serilerinde her yerde faktöriyel gördüğünü açıklar. Bir framework \(e^x\)’i hesaplarken bu \(1/n!\) katsayıları kullanır; faktöriyel hızlı büyüdüğü için seri hızlı yakınsar.
12.5 Genel Taylor Formülü ve \(e^x\)
Genel olarak, herhangi bir \(f\) için \(x^n\) teriminin katsayısı:
\[ f(x) \approx \sum_{n=0}^{N} \frac{f^{(n)}(0)}{n!}\,x^n \]
\(0\) yerine başka bir \(a\) noktası civarında:
\[ f(x) \approx \sum_{n=0}^{N} \frac{f^{(n)}(a)}{n!}\,(x-a)^n \]
En şık örnek \(e^x\)’tir: \(e^x\)’in türevi kendisi olduğundan tüm türevler \(e^x\), \(x = 0\)’da hepsi 1. Dolayısıyla tüm katsayılar \(1/n!\):
\[ e^x = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots \]
ML’de en sık ilk iki/üç terimini kullanırsın: \(f(a)\) (değer), \(f'(a)(x-a)\) (gradient/lineer terim), \(\tfrac{1}{2}f''(a)(x-a)^2\) (Hessian/kuadratik terim). Optimizasyon, kayıp manifoldunu bu kesilmiş Taylor ile modeller.
12.6 İkinci Terimin Geometrik Anlamı (FTC)
Taylor’ın ikinci-derece terimini Calculus’un Temel Teoremi’yle de görebiliriz. Bir grafiğin altındaki alanı veren fonksiyonu düşün. Bu kez grafiği değil, alan fonksiyonunu yaklaştırıyoruz.
FTC der ki: grafiğin kendisi, alan fonksiyonunun türevidir. Ama değişim \(x - a\) küçük değilse, bir de şu üçgeni hesaba katmalısın. Tabanı \(x - a\), yüksekliği grafiğin eğimi çarpı \(x - a\). Grafik, alan fonksiyonunun türevi olduğundan, onun eğimi alan fonksiyonunun ikinci türevidir:
\[ \frac{1}{2}(x-a) \cdot f''(a)(x-a) = \frac{1}{2}\,f''(a)\,(x-a)^2 \]
\[ A(x) \approx f(a) + f'(a)(x-a) + \frac{1}{2}f''(a)(x-a)^2 \]
Bu tam olarak Taylor polinomudur — ama her terimin diyagramda işaret edebileceğin net bir anlamı var: değer, dikdörtgen, üçgen.
Optimizasyonda \(f(a)\) mevcut kayıp, \(f'(a)\) gradyan (lineer iyileşme), \(\tfrac{1}{2}f''(a)\) eğrilik düzeltmesi (Hessian terimi) — trust-region yöntemleri tam bu kuadratik modeli kurar ve ne kadar güvenebileceğini (adım yarıçapını) eğrilik terimine göre ayarlar.
12.7 Yakınsama: Taylor Polinomu vs Serisi
Hiç durmayıp sonsuz terim eklesek? Matematikte sonsuz toplama seri denir.
\(e^x\)’in Taylor serisine herhangi bir \(x\) için seri \(e^x\)’e yakınsar — \(x = 0\)’daki türev bilgisinden kurulmuş olmasına rağmen, her girdide geçerli. \(e^x\) kendi Taylor serisine her yerde eşittir (\(\sin\) ve \(\cos\) da öyle):
\[ e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!} \qquad (\text{her } x) \]
Ama her zaman böyle olmaz. \(\ln(x)\)’in \(x = 1\) civarındaki Taylor serisi, yalnızca \(x \in (0, 2)\) aralığında yakınsar.
Yaklaştırdığın nokta ile serinin yakınsadığı en uzak nokta arasındaki mesafeye yakınsama yarıçapı denir.
“we say that e to the x equals its own Taylor series at all inputs x, which is kind of a magical thing to have happen.” — Grant, 19:18
Yakınsama yarıçapı, bir seri-temelli yaklaşımın nerede güvenli olduğunu söyler. Bir aktivasyonu (örneğin GELU’yu) Taylor/seri açılımıyla yaklaştırırken, yalnızca yakınsama bölgesinde geçerlidir. Aynı şekilde, bir modeli bir çalışma noktası civarında lineerleştirdiğinde (kontrol, RL, perturbation analizi), yaklaşım yalnızca o nokta yakınında güvenilirdir.
12.8 Bu Dersin Özeti
- Taylor serileri: polinom-olmayan bir fonksiyonu bir nokta civarında polinomla yaklaştırma sanatıdır.
- \(\cos(x) \approx 1 - \tfrac{1}{2}x^2\): değeri (\(c_0=1\)), eğimi (\(c_1=0\)) ve eğriliği (\(c_2=-1/2\)) \(\cos\) ile eşleştirerek.
- Daha çok terim = daha yüksek türevleri eşleştirme. \(\cos(x) \approx 1 - \tfrac{1}{2}x^2 + (1/24)x^4\).
- Faktöriyeller doğal çıkar: katsayı \(= f^{(n)}(0)/n!\).
- Genel formül: \(f(x) \approx \sum f^{(n)}(a)/n! \cdot (x-a)^n\). \(e^x = 1 + x + x^2/2! + x^3/3! + \ldots\)
- İkinci terimin geometrik anlamı (FTC): alan = değer + dikdörtgen \(f'(x-a)\) + üçgen \(\tfrac{1}{2}f''(x-a)^2\).
- Taylor serisi: bazen her yerde yakınsar (\(e^x\), \(\sin\), \(\cos\)), bazen yalnızca bir yakınsama yarıçapı içinde.
Taylor serisi, bir fonksiyonun tek bir noktadaki tüm türev bilgisini alıp o nokta civarında fonksiyonu yaklaştıran bir polinoma çevirir; \(n\). terimin katsayısı \(f^{(n)}(a)/n!\)’dir ve yakınsama yarıçapı içinde, yeterince terimle polinom fonksiyonun kendisine eşit olur.
12.9 Kontrol Soruları
Cevap: \(\sin\)’in türevleri: \(\sin, \cos, -\sin, -\cos\); \(x = 0\)’daki değerleri \(0, 1, 0, -1\). Katsayılar \(f^{(n)}(0)/n!\): \(c_0 = 0\), \(c_1 = 1\), \(c_2 = 0\), \(c_3 = -1/6\). Yani \(\sin(x) \approx x - x^3/6\).
Cevap: \(x^n\) teriminin \(n\). türevini alınca kuvvet kuralı kademeli iner ve \(1 \cdot 2 \cdot 3 \cdots n = n!\) çarpanı çıkar. \(n!\)’e bölmek bu fazlalığı tam götürür, böylece polinomun \(n\). türevi tam olarak \(f^{(n)}(0)\)’a eşit olur.
Cevap: \(1 + 0{,}1 + (0{,}1)^2/2 = 1{,}105\). Gerçek değer \(e^{0{,}1} \approx 1{,}10517\). Yalnızca üç terimle dört hane doğru.
Cevap: Yaklaşım \(f(x) \approx f(a) + f'(a)(x-a) + \tfrac{1}{2}f''(a)(x-a)^2\). Minimum için türevini sıfırla: \(f'(a) + f''(a)(x-a) = 0 \to x = a - f'(a)/f''(a)\). Bu, Newton adımıdır.
12.10 Egzersizler
Egzersiz 1. \(\cos(x)\)’in \(x = 0\) civarında 4. dereceye kadar Taylor polinomunu yaz ve \(\cos(0{,}5)\)’i tahmin et.
Egzersiz 2. \(f(x) = 1/(1-x)\)’in \(x = 0\) civarındaki Taylor serisini bul. (İpucu: \(1 + x + x^2 + x^3 + \ldots\))
Egzersiz 3. \(\ln(x)\)’in \(x = 1\) civarında 2. dereceye kadar Taylor polinomunu bul.
Egzersiz 4. (Python — sembolik) SymPy’nin series fonksiyonuyla Taylor açılımları al.
Egzersiz 5. (Sonraki dersin habercisi) Türevi düşünmenin, bu seride gördüğümüzden farklı, daha derin bir görsel yolu var mı? Ders 12, türevin alternatif bir geometrik yorumunu sunacak.
12.11 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Grant’ta |
|---|---|---|
| Taylor polinomu | Fonksiyonu bir nokta civarında polinomla yaklaştırma | 1m43 |
| \(\cos(x) \approx 1 - \tfrac{1}{2}x^2\) | Değer + eğim + eğrilik eşleştirme | 8m02 |
| Katsayı \(= f^{(n)}(0)/n!\) | Faktöriyel, kuvvet kuralı kademesini götürür | 8m32 |
| \(e^x = \sum x^n/n!\) | Tüm türevler 1; her yerde yakınsar | 13m35 |
| Genel: \(f^{(n)}(a)/n! \cdot (x-a)^n\) | \(a\) noktası civarında Taylor | 13m02 |
| İkinci terim = üçgen | \(\tfrac{1}{2}f''(a)(x-a)^2\) (FTC, alan yorumu) | 16m18 |
| Taylor serisi | Sonsuz terim; yakınsarsa fonksiyona eşit | 17m30 |
| Yakınsama yarıçapı | Serinin yakınsadığı maksimum mesafe | 20m44 |
12.12 ML Bağlantıları Özeti
- Birinci-derece Taylor → gradient / lineerleştirme; gradient descent adımı \(f(a) + f'(a)(x-a)\).
- İkinci-derece Taylor → Hessian, Newton’s method, trust region, doğal gradyan; eğrilik düzeltmesi.
- \(e^x\) serisi → softmax/exp hesabı; GELU’nun tanh/erf yaklaşımı, üstel-aile dağılımları.
- \(f^{(n)}/n!\) katsayıları → faktöriyel paydalar, serinin hızlı yakınsaması.
- “Tek nokta türevi → civar davranış” → yerel / surrogate modeller, perturbation analizi.
- Yakınsama yarıçapı → bir yaklaşımın geçerli kaldığı güven bölgesi.
- Kesilmiş Taylor → düşük dereceli modeller; ikinci-derece optimizasyonun matematiksel iskeleti.
Taylor serisi, bir fonksiyonun tek bir noktadaki türev bilgisini, o nokta civarındaki davranışına çevirir. Katsayılar \(f^{(n)}(a)/n!\); ilk birkaç terim ML’de her gün kullandığın yaklaşımlardır — gradient (birinci derece) ve Hessian (ikinci derece). “Karmaşığı yerel bir polinomla değiştir”, calculus’un en güçlü pratik hamlesidir.