flowchart LR
A["aᵗ (genel üstel)"] --> B["d/dt aᵗ = ln(a) · aᵗ<br/>(kendisinin bir katı)"]
B --> C["a = 2 → ln 2 ≈ 0,693"]
B --> D["a = 3 → ln 3 ≈ 1,099"]
B --> E["a = e → ln e = 1<br/>⭐ d/dt eᵗ = eᵗ"]
E --> F["Softmax, sigmoid, EMA<br/>weight decay, neural ODE"]
style E fill:#fff3e0,stroke:#f57c00,stroke-width:3px
style F fill:#fce4ec,stroke:#c2185b
6 Euler Sayısı e’nin Özelliği
Türevi kendisine eşit olan yegâne taban
- Grant’ın videosu: YouTube — Chapter 5: What’s so special about Euler’s number e? (≈13 dk)
- Kaynak: 3Blue1Brown — Essence of Calculus
- Okuma süresi: ≈20 dk
6.1 Bu Derste Ne Var?
Türev formülleri arasında önemli birini atlamıştık: üsteller. Bu derste \(2^x\), \(7^x\) gibi üstellerin türevini ve özellikle \(e^x\)’in neden en önemli üstel olduğunu görüyoruz. Kısa cevap: \(e^x\)’in türevi kendisine eşittir — ve bu, \(e\) sayısını matematiğin (ve ML’in) her yerine yerleştirir.
Üç ana fikir:
- Bir üstelin türevi, kendisinin bir katıdır. Üstel özellik \(a^{t+dt} = a^t \cdot a^{dt}\) bunu sağlar.
- O kat = \(\ln(\text{taban})\) (doğal logaritma). \(2^x\) için \(\approx 0{,}6931 = \ln 2\); \(3^x\) için \(\ln 3\).
- \(e\), o katın tam 1 olduğu özel tabandır (\(e \approx 2{,}71828\)); yani \(d(e^t)/dt = e^t\).
“e to the t actually equals its own derivative … the slope of a tangent line to any point on this graph equals the height of that point.” — Grant, 8:36
- \(e^x\)’in türevi kendisi → softmax (\(e^{\text{logit}}\)), sigmoid (\(1/(1+e^{-x})\)), exponential decay (learning rate schedule, EMA), gradient flow — hepsi bu özelliğe dayanır.
- \(\ln(\text{taban})\) sabiti → log-uzay hesapları, log-likelihood, cross-entropy, logit; çarpımları toplama çeviren köprü.
- “Oran \(\propto\) miktar” → exponential decay her yerde: weight decay, lr decay, EMA momentum (\(\beta\)), RL’de discount \(\gamma^t\); sürekli dinamik (neural ODE).
- \(e^{c \cdot t}\), \(c\) = oran sabiti → öğrenme oranı çizelgesi \(e^{-\lambda t}\), Adam’da \(\beta_1/\beta_2\) üstel ortalamaları; \(c\), “ne kadar hızlı büyür/söner” anlamını taşır.
6.2 \(2^t\): Bir Popülasyon, Her Gün İkiye Katlanıyor
Sezgi için \(2^t\) fonksiyonuna odaklanalım. Girdiyi bir zaman \(T\) (gün cinsinden), çıktıyı (\(2^t\)) bir popülasyon büyüklüğü olarak düşün — her gün ikiye katlanan, verimli bir yaratık topluluğu.
\(T = 0\)’da kütle \(2^0 = 1\); \(T = 1\)’de \(2^1 = 2\); ve her gün ikiye katlanarak devam eder. Türev için, kütlenin büyüme oranı \(dm/dt\)’yi istiyoruz.
Önce tam bir günlük değişime bakalım. 3. ile 4. gün arasında kütle 8’den 16’ya çıkar — günde 8 birim artış, ki bu gün başındaki popülasyon büyüklüğüne eşit. Genel olarak tam-günlük büyüme oranı, o günün başındaki popülasyona eşittir.
Bu, “\(2^t\)’nin türevi kendisidir” demeye yol açabilir — doğru yönde ama tam doğru değil. Çünkü burada tam bir gün üzerinden karşılaştırma yapıyoruz; türev ise giderek küçülen değişimleri sorar. Sonraki bölümde bu farkı düzelteceğiz.
“Değişim oranı, mevcut büyüklüğe eşit/orantılı” — bu, tüm üstel büyüme/sönüm olgularının imzasıdır. ML’de bunu en çok exponential moving average (EMA) ve üstel öğrenme oranı sönümünde görürsün: bir büyüklük, kendi değerinin sabit bir oranı kadar güncellenir, bu da üstel bir eğri çizer.
6.3 Türev: \(2^t\) Kendisinin Bir Katı (Üstel Özellik)
Tam-gün yerine küçük \(dt\) için soralım: \([2^{t+dt} - 2^t] / dt\) nedir? Burada üstellerin en önemli özelliği devreye girer: üstte toplama varsa, çıktıyı bir çarpıma ayırabilirsin:
\[ \frac{2^{t+dt} - 2^t}{dt} = 2^t \cdot \frac{2^{dt} - 1}{dt} \]
\(2^t\)’yi dışarı çarpan olarak aldık. Şimdi kritik gözlem: sağdaki \((2^{dt} - 1)/dt\) terimi, başladığımız \(t\)’den tamamen bağımsız — içinde yalnızca \(dt\) var. Hesap makinesine küçük \(dt\) değerleri koyarsan, \(dt\) küçüldükçe bu ifade çok belirli bir sayıya yaklaşır: yaklaşık \(0{,}6931\).
Yani diğer fonksiyonların türevlerinin aksine, \(dt\)’ye bağlı her şey \(t\)’den ayrılıyor. Sonuç: \(2^t\)’nin türevi kendisidir, ama bir sabitle çarpılmış:
\[ \frac{d}{dt}\, 2^t = (0{,}6931\ldots)\, 2^t \]
Toplamayı (üstteki \(t + dt\)) çarpmaya (\(2^t \cdot 2^{dt}\)) çeviren bu özellik, ML’in log-uzayda çalışmasının nedenidir: olasılık çarpımları taşma yapar, ama log alınca toplama olur ve stabil kalır. Tersi yönde, \(e^{\text{toplam}}\) = çarpım özdeşliği softmax’ın paydasını ve enerji-temelli modelleri tanımlar. “Toplamsal ↔︎ çarpımsal” köprüsü, üstel/logaritmik fonksiyonların ML’deki her yerdeliğinin kökü.
6.4 Gizemli Sabitler: \(\ln(\text{taban})\)
2’de özel bir şey yok. \(3^t\) ile çalışsaydık, üstel özellik yine “türev kendisiyle orantılı” sonucunu verirdi, ama bu kez sabit \(\approx 1{,}0986\) olurdu. \(8^t\) için sabit \(\approx 2{,}079\) çıkar — ve dikkat: bu, 2 tabanının sabitinin tam üç katıdır (\(3 \cdot 0{,}6931 = 2{,}079\)). Tesadüf değil: \(8 = 2^3\) olduğundan sabitler de bu ilişkiyi taşır.
Örüntü şu: oran sabiti, tabanın doğal logaritmasıdır (\(\ln\)):
\[ \frac{d}{dt}\, a^t = \ln(a)\cdot a^t \]
\[ \ln 2 \approx 0{,}6931, \qquad \ln 3 \approx 1{,}0986, \qquad \ln 8 = 3\ln 2 \approx 2{,}079 \]
\(\ln(\text{taban})\) sabiti, ML’de logit ve log-likelihood’un temelidir. Bir softmax çıktısının logu, \(\ln(\text{taban})\) ilişkileriyle doludur; cross-entropy kaybı \(= -\sum \log p\), doğal logaritma üzerine kuruludur. Üstel bir büyümenin “hızını” (\(\ln\) taban) okumak, log-ölçekli grafiklerde eğimi okumakla aynı şeydir.
6.5 \(e\): Sabitin Tam 1 Olduğu Taban
Doğal soru: öyle bir taban var mı ki o orantı sabiti tam 1 olsun — yani üstelin türevi yalnızca kendisine orantılı değil, kendisine eşit olsun? Var: özel sabit \(e \approx 2{,}71828\).
Aslında \(e\) burada “tesadüfen ortaya çıkmaz”; bu özellik \(e\)’yi tanımlayan şeydir. “Neden bunca sayı içinde \(e\)?” diye sormak, “neden bunca sayı içinde \(\pi\), çemberin çevresinin çapına oranı?” diye sormak gibidir.
Tüm üsteller kendi türevleriyle orantılıdır; ama yalnızca \(e\)’de o sabit 1’dir:
\[ \frac{d}{dt}\, e^t = e^t \qquad (e \approx 2{,}71828) \]
“Türevi kendine eşit” özelliği, \(e^t\)’yi diferansiyel denklemlerin doğal çözümü yapar — ve ML’de sürekli dinamiklerin dili budur. Bir neural ODE’de gizli durumun zaman evrimi \(dy/dt = f(y)\) biçimindedir; en basit hâli (\(f(y) = c \cdot y\)) doğrudan üstel çözüm verir.
6.6 \(e^{ct}\) Bir Seçimdir: \(c\)’nin Anlamı
Zincir kuralıyla (Ders 4) artık her şeyi çözebiliriz. \(d(e^{3t})/dt\) nedir? Dış fonksiyon \(e^x\) (türevi kendisi), iç fonksiyon \(3t\) (türevi 3). Zincir kuralı:
\[ \frac{d}{dt}\, e^{ct} = c\, e^{ct} \]
Şimdi gizemli sabitler tamamen çözülüyor. 2 sayısını \(e^{\ln 2}\) olarak yazabiliriz. O hâlde \(2^t = e^{(\ln 2) \cdot t}\), ve zincir kuralı türevin sabitini doğrudan \(\ln 2\) yapar:
\[ 2^t = e^{(\ln 2)\, t} \qquad \frac{d}{dt}\, 2^t = \ln 2 \cdot 2^t \]
İşte \(0{,}6931 = \ln 2\) buradan geliyor; aynısı her taban için geçerli (sabit = \(\ln\) taban). Bu yüzden calculus uygulamalarında üsteller neredeyse hiç “taban üzeri \(t\)” yazılmaz; \(e^{\text{sabit} \cdot t}\) yazılır.
\(e^{ct}\) yazımı ML’de standarttır çünkü \(c\), “ne kadar hızlı” sorusunun yanıtıdır. Öğrenme oranı sönümü genelde \(\text{lr}(t) = \text{lr}_0 \cdot e^{-\lambda t}\) biçimindedir; \(\lambda\), sönüm hızıdır. EMA güncellemesi (momentum \(\beta\)) ve Adam’ın \(\beta_1/\beta_2\)’si üstel ortalamalardır. RL’de discount \(\gamma^t = e^{(\ln \gamma) \cdot t}\). Hep aynı kalıp: \(e^{ct}\), \(c\) = oran.
6.7 Doğanın Üstelleri: Oran \(\propto\) Miktar
Neden bu kadar çok şey üstel? Çünkü doğada pek çok olguda, bir niceliğin değişim oranı, o niceliğin kendisiyle orantılıdır:
- Popülasyon: büyüme oranı, mevcut nüfusla orantılı (kaynak sınırı yoksa).
- Newton soğuması: sıcak su soğur, soğuma oranı su ile oda arasındaki sıcaklık farkıyla orantılı.
- Bileşik faiz: paranın büyüme oranı, o anki para miktarıyla orantılı.
Bu durumların hepsinde, niceliği zamana karşı tanımlayan fonksiyon bir üsteldir. Matematiksel olarak “oran kendisiyle orantılı” demek:
\[ \frac{dN}{dt} = c\, N \qquad N(t) = N_0\, e^{ct} \]
Bu fonksiyonu yazmanın çok yolu olsa da, \(e^{c \cdot t}\) seçmek doğaldır — çünkü \(c\), tam olarak değişen değişkenin büyüklüğü ile değişim oranı arasındaki orantı sabitidir.
“it’s the same as the proportionality constant between the size of the changing variable and the rate of change.” — Grant, 13:05
\(dN/dt = c \cdot N\) denklemi, ML’deki sürekli-zaman düşüncesinin iskeletidir. Weight decay bir sönüm denklemidir (\(dw/dt = -\lambda w \to w(t) = w_0 e^{-\lambda t}\)). EMA: yeni ortalama, eskiyle üstel ağırlıklı karışır. Gradient flow, SGD’nin sürekli limiti olarak \(d\theta/dt = -\nabla L\) biçiminde yazılır; lineerleştirildiğinde özdeğerler \(e^{\lambda t}\) terimleri verir ve eğitimin kararlılığını (patlama/sönme) belirler.
6.8 Bu Dersin Özeti
- Üstellerin türevi, kendilerinin bir katıdır; bunu üstel özellik \(a^{t+dt} = a^t \cdot a^{dt}\) sağlar.
- O kat, başlangıç zamanı \(t\)’den bağımsız bir sabittir: \((a^{dt} - 1)/dt\), \(dt \to 0\) iken \(\ln(a)\)’ya yaklaşır.
- \(d(a^t)/dt = \ln(a) \cdot a^t\). Sayısal: \(\ln 2 \approx 0{,}6931\), \(\ln 3 \approx 1{,}0986\), \(\ln 8 = 3 \cdot \ln 2 \approx 2{,}079\).
- \(e \approx 2{,}71828\), o sabitin tam 1 olduğu özel tabandır: \(d(e^t)/dt = e^t\). Bu eşitlik \(e\)’yi tanımlar.
- Zincir kuralıyla \(d(e^{ct})/dt = c \cdot e^{ct}\); ve \(2^t = e^{(\ln 2) \cdot t}\) yazımı gizemli sabitleri tamamen açıklar.
- \(e^{c \cdot t}\) yazmak bir seçimdir (\(e\) fonksiyona özsel değil); değerini, \(c\)’ye “oranın miktara oranı” anlamını vermesi belirler.
- “Değişim oranı miktarla orantılı” (\(dN/dt = c \cdot N\)) olan her olgu, üstel bir çözüme (\(N_0 \cdot e^{ct}\)) sahiptir.
\(e^x\), türevi tam kendisine eşit olan yegâne üstel tabandır (bu, \(e\)’nin tanımıdır); ve “değişim oranı, değişen miktarla orantılı” olan her olgu — popülasyon, soğuma, faiz, sönüm — doğal olarak \(e^{c \cdot t}\) biçiminde yazılır, çünkü buradaki \(c\) o orantı sabitidir.
6.9 Kontrol Soruları
Cevap: Zincir kuralı: dış fonksiyon \(e^x\) (türevi kendisi), iç fonksiyon \(5t\) (türevi 5). Sonuç: \(e^{5t} \cdot 5 = 5e^{5t}\). Genel olarak \(d(e^{ct})/dt = c \cdot e^{ct}\).
Cevap: Üstel özellik sayesinde: \(a^{t+dt} = a^t \cdot a^{dt}\). Fark oranında \(a^t\) dışarı çarpan olarak çıkar ve geriye \((a^{dt} - 1)/dt\) kalır — bu ifade yalnızca \(dt\)’ye bağlıdır, \(t\) hiç görünmez. Bu yüzden türev “kendisi çarpı bir sabit”tir; sabit \(= \ln(a)\).
Cevap: \(c = -1\) için \(d(e^{ct})/dt = c \cdot e^{ct} = -e^{-t}\). Türev daima değerin negatifi: fonksiyon her zaman azalır, üstelik o anki değeriyle orantılı hızda. Bu üstel sönümdür — radyoaktif bozunma, weight decay, lr sönümü hep bu biçimde.
Cevap: \(\lambda\) büyüdükçe sönüm hızlanır — ağırlık daha çabuk küçülür. Yarı-ömür, değerin yarıya indiği süredir: \(e^{-\lambda t} = 1/2 \to t = \ln 2 / \lambda\). Yani \(\lambda\) iki katına çıkarsa yarı-ömür yarıya iner. \(\lambda\), “regularizasyonun ne kadar agresif olduğunu” doğrudan kontrol eder; EMA momentum \(\beta\) ve Adam’ın \(\beta_1/\beta_2\)’si de aynı yarı-ömür mantığıyla okunur.
6.10 Egzersizler
Egzersiz 1. Şu türevleri bul: \(d/dt[e^{-2t}]\), \(d/dx[e^{x^2}]\) (zincir kuralı), \(d/dt[3 \cdot e^t]\).
Egzersiz 2. \(5^t\)’nin türev sabitinin \(\ln 5\) olduğunu göster: \(5 = e^{\ln 5}\) yazıp zincir kuralını uygula. \(\ln 5\)’i hesapla (\(\approx 1{,}609\)) ve \((5^{0{,}001} - 1)/0{,}001\) ile karşılaştır.
Egzersiz 3. (Newton soğuması) Soğuma denklemi \(dT/dt = -k(T - T_{\text{oda}})\). Çözümün \(T(t) = T_{\text{oda}} + (T_0 - T_{\text{oda}}) \cdot e^{-kt}\) olduğunu, bu ifadeyi denkleme yerine koyarak doğrula.
Egzersiz 4. (Python — sayısal doğrulama) \((2^{dt} - 1)/dt\)’nin \(dt \to 0\) iken \(\ln 2\)’ye yaklaştığını göster; ayrıca \(e^t\) ile sayısal türevinin çakıştığını çiz.
Egzersiz 5. (Sonraki dersin habercisi) Şimdiye kadar hep \(y = f(x)\) biçiminde açık fonksiyonların türevini aldık. Peki \(x^2 + y^2 = 25\) gibi, \(y\)’yi \(x\) cinsinden açıkça çözmediğin kapalı bir ilişkide \(dy/dx\) nasıl bulunur? Ders 6, kapalı türevi anlatacak.
6.11 Anahtar Kavramlar (Cheat Sheet)
| Kavram | Tanım | Grant’ta |
|---|---|---|
| Üstel özellik | \(a^{t+dt} = a^t \cdot a^{dt}\); toplama → çarpma | 4m14 |
| \(d(a^t)/dt = \ln(a) \cdot a^t\) | Türev = kendisi çarpı \(\ln\)(taban) | 5m53 |
| Gizemli sabit = \(\ln\)(taban) | \(0{,}6931 = \ln 2\); \(1{,}0986 = \ln 3\) | 10m45 |
| \(e \approx 2{,}71828\) | Orantı sabitinin tam 1 olduğu taban | 7m54 |
| \(d(e^t)/dt = e^t\) | \(e\)’yi tanımlayan özellik; teğet eğimi = yükseklik | 8m36 |
| \(d(e^{ct})/dt = c \cdot e^{ct}\) | Zincir kuralı; \(c\) = oran sabiti | 9m00 |
| \(2^t = e^{(\ln 2) \cdot t}\) | Her üstel, \(e\) tabanında yazılabilir | 9m58 |
| Oran \(\propto\) miktar | \(dN/dt = c \cdot N \to N_0 \cdot e^{ct}\) | 11m55 |
6.12 ML Bağlantıları Özeti
- \(d(e^x)/dx = e^x\) → softmax (\(e^{\text{logit}}\)), sigmoid, gradient flow, neural ODE’lerin doğal çözümü.
- Üstel sönüm → weight decay (\(w_0 e^{-\lambda t}\)), lr schedule, EMA momentum, RL discount \(\gamma^t = e^{(\ln \gamma) \cdot t}\).
- \(\ln\)(taban) sabiti → logit, log-likelihood, cross-entropy; kayıp eğrilerini log-ölçekte okumak.
- Üstel özellik (toplam → çarpım) → log-olasılık toplamı (taşma önleme), enerji-temelli modeller, softmax paydası.
- \(e^{ct}\), \(c\) = oran → yarı-ömür/\(\beta\) okuması: EMA, Adam (\(\beta_1/\beta_2\)), öğrenme oranı çizelgeleri.
- \(dN/dt = c \cdot N\) → sürekli dinamik; gradient flow lineerleştirmesinde özdeğer \(e^{\lambda t}\), eğitimin patlama/sönme kararlılığı.
- \(e\)’nin tanımı (türevi kendisi) → diferansiyel denklemlerin doğal çözüm tabanı; lineer sistem analizinin dili.
Üstellerin sihri tek bir özellikten gelir — türevleri kendileriyle orantılıdır, orantı sabiti de \(\ln\)(taban). \(e\), bu sabitin tam 1 olduğu sayıdır; yani \(e^x\) kendi türevine eşittir. Bu yüzden “değişimi kendi büyüklüğüne bağlı” olan her şey (büyüme, sönüm, softmax, EMA, discount) \(e^{c \cdot t}\) ile yazılır ve \(c\) sana o değişimin hızını söyler.