6  Euler Sayısı e’nin Özelliği

Türevi kendisine eşit olan yegâne taban

NotBölüm bilgisi

6.1 Bu Derste Ne Var?

Türev formülleri arasında önemli birini atlamıştık: üsteller. Bu derste \(2^x\), \(7^x\) gibi üstellerin türevini ve özellikle \(e^x\)’in neden en önemli üstel olduğunu görüyoruz. Kısa cevap: \(e^x\)’in türevi kendisine eşittir — ve bu, \(e\) sayısını matematiğin (ve ML’in) her yerine yerleştirir.

Üç ana fikir:

  1. Bir üstelin türevi, kendisinin bir katıdır. Üstel özellik \(a^{t+dt} = a^t \cdot a^{dt}\) bunu sağlar.
  2. O kat = \(\ln(\text{taban})\) (doğal logaritma). \(2^x\) için \(\approx 0{,}6931 = \ln 2\); \(3^x\) için \(\ln 3\).
  3. \(e\), o katın tam 1 olduğu özel tabandır (\(e \approx 2{,}71828\)); yani \(d(e^t)/dt = e^t\).
flowchart LR
    A["aᵗ (genel üstel)"] --> B["d/dt aᵗ = ln(a) · aᵗ<br/>(kendisinin bir katı)"]
    B --> C["a = 2 → ln 2 ≈ 0,693"]
    B --> D["a = 3 → ln 3 ≈ 1,099"]
    B --> E["a = e → ln e = 1<br/>⭐ d/dt eᵗ = eᵗ"]
    E --> F["Softmax, sigmoid, EMA<br/>weight decay, neural ODE"]
    style E fill:#fff3e0,stroke:#f57c00,stroke-width:3px
    style F fill:#fce4ec,stroke:#c2185b
Şekil 6.1: Üstellerin türev örüntüsü: tüm \(a^t\)’lerin türevi \(\ln(a) \cdot a^t\). \(e\), \(\ln(a) = 1\) olan özel taban.

“e to the t actually equals its own derivative … the slope of a tangent line to any point on this graph equals the height of that point.” — Grant, 8:36

İpucuBuilder Notu — ML Köprüleri
  • \(e^x\)’in türevi kendisisoftmax (\(e^{\text{logit}}\)), sigmoid (\(1/(1+e^{-x})\)), exponential decay (learning rate schedule, EMA), gradient flow — hepsi bu özelliğe dayanır.
  • \(\ln(\text{taban})\) sabiti → log-uzay hesapları, log-likelihood, cross-entropy, logit; çarpımları toplama çeviren köprü.
  • “Oran \(\propto\) miktar” → exponential decay her yerde: weight decay, lr decay, EMA momentum (\(\beta\)), RL’de discount \(\gamma^t\); sürekli dinamik (neural ODE).
  • \(e^{c \cdot t}\), \(c\) = oran sabiti → öğrenme oranı çizelgesi \(e^{-\lambda t}\), Adam’da \(\beta_1/\beta_2\) üstel ortalamaları; \(c\), “ne kadar hızlı büyür/söner” anlamını taşır.

6.2 \(2^t\): Bir Popülasyon, Her Gün İkiye Katlanıyor

Sezgi için \(2^t\) fonksiyonuna odaklanalım. Girdiyi bir zaman \(T\) (gün cinsinden), çıktıyı (\(2^t\)) bir popülasyon büyüklüğü olarak düşün — her gün ikiye katlanan, verimli bir yaratık topluluğu.

\(T = 0\)’da kütle \(2^0 = 1\); \(T = 1\)’de \(2^1 = 2\); ve her gün ikiye katlanarak devam eder. Türev için, kütlenin büyüme oranı \(dm/dt\)’yi istiyoruz.

Önce tam bir günlük değişime bakalım. 3. ile 4. gün arasında kütle 8’den 16’ya çıkar — günde 8 birim artış, ki bu gün başındaki popülasyon büyüklüğüne eşit. Genel olarak tam-günlük büyüme oranı, o günün başındaki popülasyona eşittir.

Bu, “\(2^t\)’nin türevi kendisidir” demeye yol açabilir — doğru yönde ama tam doğru değil. Çünkü burada tam bir gün üzerinden karşılaştırma yapıyoruz; türev ise giderek küçülen değişimleri sorar. Sonraki bölümde bu farkı düzelteceğiz.

İpucuBuilder Notu — EMA ve Üstel Sönüm

“Değişim oranı, mevcut büyüklüğe eşit/orantılı” — bu, tüm üstel büyüme/sönüm olgularının imzasıdır. ML’de bunu en çok exponential moving average (EMA) ve üstel öğrenme oranı sönümünde görürsün: bir büyüklük, kendi değerinin sabit bir oranı kadar güncellenir, bu da üstel bir eğri çizer.

6.3 Türev: \(2^t\) Kendisinin Bir Katı (Üstel Özellik)

Tam-gün yerine küçük \(dt\) için soralım: \([2^{t+dt} - 2^t] / dt\) nedir? Burada üstellerin en önemli özelliği devreye girer: üstte toplama varsa, çıktıyı bir çarpıma ayırabilirsin:

\[ \frac{2^{t+dt} - 2^t}{dt} = 2^t \cdot \frac{2^{dt} - 1}{dt} \]

\(2^t\)’yi dışarı çarpan olarak aldık. Şimdi kritik gözlem: sağdaki \((2^{dt} - 1)/dt\) terimi, başladığımız \(t\)’den tamamen bağımsız — içinde yalnızca \(dt\) var. Hesap makinesine küçük \(dt\) değerleri koyarsan, \(dt\) küçüldükçe bu ifade çok belirli bir sayıya yaklaşır: yaklaşık \(0{,}6931\).

Yani diğer fonksiyonların türevlerinin aksine, \(dt\)’ye bağlı her şey \(t\)’den ayrılıyor. Sonuç: \(2^t\)’nin türevi kendisidir, ama bir sabitle çarpılmış:

\[ \frac{d}{dt}\, 2^t = (0{,}6931\ldots)\, 2^t \]

İpucuBuilder Notu — Log-uzay

Toplamayı (üstteki \(t + dt\)) çarpmaya (\(2^t \cdot 2^{dt}\)) çeviren bu özellik, ML’in log-uzayda çalışmasının nedenidir: olasılık çarpımları taşma yapar, ama log alınca toplama olur ve stabil kalır. Tersi yönde, \(e^{\text{toplam}}\) = çarpım özdeşliği softmax’ın paydasını ve enerji-temelli modelleri tanımlar. “Toplamsal ↔︎ çarpımsal” köprüsü, üstel/logaritmik fonksiyonların ML’deki her yerdeliğinin kökü.

6.4 Gizemli Sabitler: \(\ln(\text{taban})\)

2’de özel bir şey yok. \(3^t\) ile çalışsaydık, üstel özellik yine “türev kendisiyle orantılı” sonucunu verirdi, ama bu kez sabit \(\approx 1{,}0986\) olurdu. \(8^t\) için sabit \(\approx 2{,}079\) çıkar — ve dikkat: bu, 2 tabanının sabitinin tam üç katıdır (\(3 \cdot 0{,}6931 = 2{,}079\)). Tesadüf değil: \(8 = 2^3\) olduğundan sabitler de bu ilişkiyi taşır.

Örüntü şu: oran sabiti, tabanın doğal logaritmasıdır (\(\ln\)):

\[ \frac{d}{dt}\, a^t = \ln(a)\cdot a^t \]

\[ \ln 2 \approx 0{,}6931, \qquad \ln 3 \approx 1{,}0986, \qquad \ln 8 = 3\ln 2 \approx 2{,}079 \]

İpucuBuilder Notu — Cross-entropy

\(\ln(\text{taban})\) sabiti, ML’de logit ve log-likelihood’un temelidir. Bir softmax çıktısının logu, \(\ln(\text{taban})\) ilişkileriyle doludur; cross-entropy kaybı \(= -\sum \log p\), doğal logaritma üzerine kuruludur. Üstel bir büyümenin “hızını” (\(\ln\) taban) okumak, log-ölçekli grafiklerde eğimi okumakla aynı şeydir.

6.5 \(e\): Sabitin Tam 1 Olduğu Taban

Doğal soru: öyle bir taban var mı ki o orantı sabiti tam 1 olsun — yani üstelin türevi yalnızca kendisine orantılı değil, kendisine eşit olsun? Var: özel sabit \(e \approx 2{,}71828\).

Aslında \(e\) burada “tesadüfen ortaya çıkmaz”; bu özellik \(e\)’yi tanımlayan şeydir. “Neden bunca sayı içinde \(e\)?” diye sormak, “neden bunca sayı içinde \(\pi\), çemberin çevresinin çapına oranı?” diye sormak gibidir.

Tüm üsteller kendi türevleriyle orantılıdır; ama yalnızca \(e\)’de o sabit 1’dir:

\[ \frac{d}{dt}\, e^t = e^t \qquad (e \approx 2{,}71828) \]

İpucuBuilder Notu — Neural ODE

“Türevi kendine eşit” özelliği, \(e^t\)’yi diferansiyel denklemlerin doğal çözümü yapar — ve ML’de sürekli dinamiklerin dili budur. Bir neural ODE’de gizli durumun zaman evrimi \(dy/dt = f(y)\) biçimindedir; en basit hâli (\(f(y) = c \cdot y\)) doğrudan üstel çözüm verir.

6.6 \(e^{ct}\) Bir Seçimdir: \(c\)’nin Anlamı

Zincir kuralıyla (Ders 4) artık her şeyi çözebiliriz. \(d(e^{3t})/dt\) nedir? Dış fonksiyon \(e^x\) (türevi kendisi), iç fonksiyon \(3t\) (türevi 3). Zincir kuralı:

\[ \frac{d}{dt}\, e^{ct} = c\, e^{ct} \]

Şimdi gizemli sabitler tamamen çözülüyor. 2 sayısını \(e^{\ln 2}\) olarak yazabiliriz. O hâlde \(2^t = e^{(\ln 2) \cdot t}\), ve zincir kuralı türevin sabitini doğrudan \(\ln 2\) yapar:

\[ 2^t = e^{(\ln 2)\, t} \qquad \frac{d}{dt}\, 2^t = \ln 2 \cdot 2^t \]

İşte \(0{,}6931 = \ln 2\) buradan geliyor; aynısı her taban için geçerli (sabit = \(\ln\) taban). Bu yüzden calculus uygulamalarında üsteller neredeyse hiç “taban üzeri \(t\)” yazılmaz; \(e^{\text{sabit} \cdot t}\) yazılır.

İpucuBuilder Notu — Hep Aynı Kalıp

\(e^{ct}\) yazımı ML’de standarttır çünkü \(c\), “ne kadar hızlı” sorusunun yanıtıdır. Öğrenme oranı sönümü genelde \(\text{lr}(t) = \text{lr}_0 \cdot e^{-\lambda t}\) biçimindedir; \(\lambda\), sönüm hızıdır. EMA güncellemesi (momentum \(\beta\)) ve Adam’ın \(\beta_1/\beta_2\)’si üstel ortalamalardır. RL’de discount \(\gamma^t = e^{(\ln \gamma) \cdot t}\). Hep aynı kalıp: \(e^{ct}\), \(c\) = oran.

6.7 Doğanın Üstelleri: Oran \(\propto\) Miktar

Neden bu kadar çok şey üstel? Çünkü doğada pek çok olguda, bir niceliğin değişim oranı, o niceliğin kendisiyle orantılıdır:

  • Popülasyon: büyüme oranı, mevcut nüfusla orantılı (kaynak sınırı yoksa).
  • Newton soğuması: sıcak su soğur, soğuma oranı su ile oda arasındaki sıcaklık farkıyla orantılı.
  • Bileşik faiz: paranın büyüme oranı, o anki para miktarıyla orantılı.

Bu durumların hepsinde, niceliği zamana karşı tanımlayan fonksiyon bir üsteldir. Matematiksel olarak “oran kendisiyle orantılı” demek:

\[ \frac{dN}{dt} = c\, N \qquad N(t) = N_0\, e^{ct} \]

Bu fonksiyonu yazmanın çok yolu olsa da, \(e^{c \cdot t}\) seçmek doğaldır — çünkü \(c\), tam olarak değişen değişkenin büyüklüğü ile değişim oranı arasındaki orantı sabitidir.

“it’s the same as the proportionality constant between the size of the changing variable and the rate of change.” — Grant, 13:05

İpucuBuilder Notu — Gradient Flow

\(dN/dt = c \cdot N\) denklemi, ML’deki sürekli-zaman düşüncesinin iskeletidir. Weight decay bir sönüm denklemidir (\(dw/dt = -\lambda w \to w(t) = w_0 e^{-\lambda t}\)). EMA: yeni ortalama, eskiyle üstel ağırlıklı karışır. Gradient flow, SGD’nin sürekli limiti olarak \(d\theta/dt = -\nabla L\) biçiminde yazılır; lineerleştirildiğinde özdeğerler \(e^{\lambda t}\) terimleri verir ve eğitimin kararlılığını (patlama/sönme) belirler.

6.8 Bu Dersin Özeti

  1. Üstellerin türevi, kendilerinin bir katıdır; bunu üstel özellik \(a^{t+dt} = a^t \cdot a^{dt}\) sağlar.
  2. O kat, başlangıç zamanı \(t\)’den bağımsız bir sabittir: \((a^{dt} - 1)/dt\), \(dt \to 0\) iken \(\ln(a)\)’ya yaklaşır.
  3. \(d(a^t)/dt = \ln(a) \cdot a^t\). Sayısal: \(\ln 2 \approx 0{,}6931\), \(\ln 3 \approx 1{,}0986\), \(\ln 8 = 3 \cdot \ln 2 \approx 2{,}079\).
  4. \(e \approx 2{,}71828\), o sabitin tam 1 olduğu özel tabandır: \(d(e^t)/dt = e^t\). Bu eşitlik \(e\)’yi tanımlar.
  5. Zincir kuralıyla \(d(e^{ct})/dt = c \cdot e^{ct}\); ve \(2^t = e^{(\ln 2) \cdot t}\) yazımı gizemli sabitleri tamamen açıklar.
  6. \(e^{c \cdot t}\) yazmak bir seçimdir (\(e\) fonksiyona özsel değil); değerini, \(c\)’ye “oranın miktara oranı” anlamını vermesi belirler.
  7. “Değişim oranı miktarla orantılı” (\(dN/dt = c \cdot N\)) olan her olgu, üstel bir çözüme (\(N_0 \cdot e^{ct}\)) sahiptir.
ÖnemliTek bir cümle

\(e^x\), türevi tam kendisine eşit olan yegâne üstel tabandır (bu, \(e\)’nin tanımıdır); ve “değişim oranı, değişen miktarla orantılı” olan her olgu — popülasyon, soğuma, faiz, sönüm — doğal olarak \(e^{c \cdot t}\) biçiminde yazılır, çünkü buradaki \(c\) o orantı sabitidir.

6.9 Kontrol Soruları

Cevap: Zincir kuralı: dış fonksiyon \(e^x\) (türevi kendisi), iç fonksiyon \(5t\) (türevi 5). Sonuç: \(e^{5t} \cdot 5 = 5e^{5t}\). Genel olarak \(d(e^{ct})/dt = c \cdot e^{ct}\).

Cevap: Üstel özellik sayesinde: \(a^{t+dt} = a^t \cdot a^{dt}\). Fark oranında \(a^t\) dışarı çarpan olarak çıkar ve geriye \((a^{dt} - 1)/dt\) kalır — bu ifade yalnızca \(dt\)’ye bağlıdır, \(t\) hiç görünmez. Bu yüzden türev “kendisi çarpı bir sabit”tir; sabit \(= \ln(a)\).

Cevap: \(c = -1\) için \(d(e^{ct})/dt = c \cdot e^{ct} = -e^{-t}\). Türev daima değerin negatifi: fonksiyon her zaman azalır, üstelik o anki değeriyle orantılı hızda. Bu üstel sönümdür — radyoaktif bozunma, weight decay, lr sönümü hep bu biçimde.

Cevap: \(\lambda\) büyüdükçe sönüm hızlanır — ağırlık daha çabuk küçülür. Yarı-ömür, değerin yarıya indiği süredir: \(e^{-\lambda t} = 1/2 \to t = \ln 2 / \lambda\). Yani \(\lambda\) iki katına çıkarsa yarı-ömür yarıya iner. \(\lambda\), “regularizasyonun ne kadar agresif olduğunu” doğrudan kontrol eder; EMA momentum \(\beta\) ve Adam’ın \(\beta_1/\beta_2\)’si de aynı yarı-ömür mantığıyla okunur.

6.10 Egzersizler

Egzersiz 1. Şu türevleri bul: \(d/dt[e^{-2t}]\), \(d/dx[e^{x^2}]\) (zincir kuralı), \(d/dt[3 \cdot e^t]\).

Egzersiz 2. \(5^t\)’nin türev sabitinin \(\ln 5\) olduğunu göster: \(5 = e^{\ln 5}\) yazıp zincir kuralını uygula. \(\ln 5\)’i hesapla (\(\approx 1{,}609\)) ve \((5^{0{,}001} - 1)/0{,}001\) ile karşılaştır.

Egzersiz 3. (Newton soğuması) Soğuma denklemi \(dT/dt = -k(T - T_{\text{oda}})\). Çözümün \(T(t) = T_{\text{oda}} + (T_0 - T_{\text{oda}}) \cdot e^{-kt}\) olduğunu, bu ifadeyi denkleme yerine koyarak doğrula.

Egzersiz 4. (Python — sayısal doğrulama) \((2^{dt} - 1)/dt\)’nin \(dt \to 0\) iken \(\ln 2\)’ye yaklaştığını göster; ayrıca \(e^t\) ile sayısal türevinin çakıştığını çiz.

Egzersiz 5. (Sonraki dersin habercisi) Şimdiye kadar hep \(y = f(x)\) biçiminde açık fonksiyonların türevini aldık. Peki \(x^2 + y^2 = 25\) gibi, \(y\)’yi \(x\) cinsinden açıkça çözmediğin kapalı bir ilişkide \(dy/dx\) nasıl bulunur? Ders 6, kapalı türevi anlatacak.

6.11 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Grant’ta
Üstel özellik \(a^{t+dt} = a^t \cdot a^{dt}\); toplama → çarpma 4m14
\(d(a^t)/dt = \ln(a) \cdot a^t\) Türev = kendisi çarpı \(\ln\)(taban) 5m53
Gizemli sabit = \(\ln\)(taban) \(0{,}6931 = \ln 2\); \(1{,}0986 = \ln 3\) 10m45
\(e \approx 2{,}71828\) Orantı sabitinin tam 1 olduğu taban 7m54
\(d(e^t)/dt = e^t\) \(e\)’yi tanımlayan özellik; teğet eğimi = yükseklik 8m36
\(d(e^{ct})/dt = c \cdot e^{ct}\) Zincir kuralı; \(c\) = oran sabiti 9m00
\(2^t = e^{(\ln 2) \cdot t}\) Her üstel, \(e\) tabanında yazılabilir 9m58
Oran \(\propto\) miktar \(dN/dt = c \cdot N \to N_0 \cdot e^{ct}\) 11m55

6.12 ML Bağlantıları Özeti

İpucu7 köprü
  1. \(d(e^x)/dx = e^x\) → softmax (\(e^{\text{logit}}\)), sigmoid, gradient flow, neural ODE’lerin doğal çözümü.
  2. Üstel sönüm → weight decay (\(w_0 e^{-\lambda t}\)), lr schedule, EMA momentum, RL discount \(\gamma^t = e^{(\ln \gamma) \cdot t}\).
  3. \(\ln\)(taban) sabiti → logit, log-likelihood, cross-entropy; kayıp eğrilerini log-ölçekte okumak.
  4. Üstel özellik (toplam → çarpım) → log-olasılık toplamı (taşma önleme), enerji-temelli modeller, softmax paydası.
  5. \(e^{ct}\), \(c\) = oran → yarı-ömür/\(\beta\) okuması: EMA, Adam (\(\beta_1/\beta_2\)), öğrenme oranı çizelgeleri.
  6. \(dN/dt = c \cdot N\) → sürekli dinamik; gradient flow lineerleştirmesinde özdeğer \(e^{\lambda t}\), eğitimin patlama/sönme kararlılığı.
  7. \(e\)’nin tanımı (türevi kendisi) → diferansiyel denklemlerin doğal çözüm tabanı; lineer sistem analizinin dili.
ÖnemliTek bir şey alıp gideceksen

Üstellerin sihri tek bir özellikten gelir — türevleri kendileriyle orantılıdır, orantı sabiti de \(\ln\)(taban). \(e\), bu sabitin tam 1 olduğu sayıdır; yani \(e^x\) kendi türevine eşittir. Bu yüzden “değişimi kendi büyüklüğüne bağlı” olan her şey (büyüme, sönüm, softmax, EMA, discount) \(e^{c \cdot t}\) ile yazılır ve \(c\) sana o değişimin hızını söyler.