18  Ortogonal Matrisler ve Gram-Schmidt

QᵀQ = I, A = QR — sayısal LA’nın kararlılık motoru

NotBölüm bilgisi

18.1 Bu Derste Ne Var?

  1. Ortonormal vektörler (\(Q^T Q = I\)).
  2. Ortogonal matris (kare \(Q\)): \(Q^T = Q^{-1}\).
  3. Projeksiyon \(P = QQ^T\), normal denklemler \(\hat{\mathbf{x}} = Q^T \mathbf{b}\).
  4. Gram-Schmidt\(A = QR\) ayrışımı.

“A equals QR is the magic formula — the expression of Gram-Schmidt.” — Strang, 45:25

flowchart LR
    Q["Ortonormal kolonlu Q<br/>QᵀQ = I"] --> P["P = QQᵀ<br/>(ters yok)"]
    Q --> X["⭐ x̂ = Qᵀb<br/>(x̂ᵢ = qᵢᵀb)"]
    X --> FOUR["Fourier katsayıları<br/>PCA skorları<br/>wavelet"]

    A["A bağımsız kolonlu"] --> GS["Gram-Schmidt"]
    GS --> QR["⭐ A = QR<br/>(R üst üçgensel)"]
    QR --> STABLE["Rx̂ = Qᵀb<br/>(AᵀA'sız, kararlı)"]
    STABLE --> ML["np.linalg.lstsq<br/>arka plan"]

    style X fill:#fff3e0,stroke:#e67e22,stroke-width:3px
    style QR fill:#fff3e0,stroke:#e67e22,stroke-width:3px
    style ML fill:#fce4ec,stroke:#c2185b,stroke-width:2px
flowchart LR
    Q["Ortonormal kolonlu Q<br/>QᵀQ = I"] --> P["P = QQᵀ<br/>(ters yok)"]
    Q --> X["⭐ x̂ = Qᵀb<br/>(x̂ᵢ = qᵢᵀb)"]
    X --> FOUR["Fourier katsayıları<br/>PCA skorları<br/>wavelet"]

    A["A bağımsız kolonlu"] --> GS["Gram-Schmidt"]
    GS --> QR["⭐ A = QR<br/>(R üst üçgensel)"]
    QR --> STABLE["Rx̂ = Qᵀb<br/>(AᵀA'sız, kararlı)"]
    STABLE --> ML["np.linalg.lstsq<br/>arka plan"]

    style X fill:#fff3e0,stroke:#e67e22,stroke-width:3px
    style QR fill:#fff3e0,stroke:#e67e22,stroke-width:3px
    style ML fill:#fce4ec,stroke:#c2185b,stroke-width:2px
Şekil 18.1: Ortonormallik → ters alma yok. Gram-Schmidt herhangi bir bazı ortonormale çevirir.
İpucuBuilder Notu — QR Sayısal LA + ML Kararlılık
  • Ortogonal Q = rotasyon/yansıma\(\|Q\mathbf{x}\| = \|\mathbf{x}\|\); ortogonal başlatma gradyanları korur.
  • \(\hat{\mathbf{x}}_i = \mathbf{q}_i^T \mathbf{b}\) → Fourier, PCA, wavelet.
  • \(A = QR\) → Regresyon AᵀA’sız çözer; sayısal kararlı (np.linalg.qr).
  • \(A^T A\)’nın koşul sayısı = \(\kappa(A)^2\) → Doğrudan çözmek tehlikeli, QR/SVD tercih.

18.2 Ortonormal Vektörler ve Q

\[ \mathbf{q}_i^T \mathbf{q}_j = \begin{cases} 0 & i \neq j \\ 1 & i = j \end{cases} \]

Vektörler bir matrisin kolonları → \(Q\). Ortonormal vektörler her zaman bağımsız.

18.3 QᵀQ = I

\((QᵀQ)_{ij} = \mathbf{q}_i^T \mathbf{q}_j\)\(Q^T Q = I\).

Dikkat: \(Q\) kare olmak zorunda değil. 4×2 \(Q\) için \(Q^T Q\) (2×2) = \(I\), ama \(Q Q^T\) farklı (projeksiyon).

Builder Notu: \(Q^T Q = I\) = izometri (uzunluk korur): \(\|Q\mathbf{x}\|^2 = \mathbf{x}^T Q^T Q \mathbf{x} = \|\mathbf{x}\|^2\). Spektral normun 1 olması (kararlı eğitim), normalizing flow hacim koruma.

18.4 Ortogonal Matris (Kare) — \(Q^T = Q^{-1}\)

Kare \(Q\) ortonormal kolonlu ise ortogonal matris. \(Q^T Q = I\)\(Q^T = Q^{-1}\). Tersi bedava.

Örnekler:

  • Permütasyon: birim vektörler yer değişmiş.
  • Rotasyon: \(\begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}\).
  • Hadamard (\(\frac{1}{2} \cdot \pm 1\)’lerden).

Builder Notu: Rotasyonlar veri artırma; permütasyon shuffle; Hadamard fast transforms (Performer attention yaklaşımı).

18.5 Projeksiyon \(P = QQ^T\)

\(P = A(A^T A)^{-1} A^T\)’de \(A = Q\), \(A^T A = I\):

\[ P = Q I Q^T = Q Q^T \]

Ters alma yok. \(Q\) kareyse \(P = I\) (her şey zaten uzayda).

18.6 \(\hat{\mathbf{x}} = Q^T \mathbf{b}\) — Normal Denklemler Çöker ⭐

\[ Q^T Q \hat{\mathbf{x}} = Q^T \mathbf{b} \implies \hat{\mathbf{x}} = Q^T \mathbf{b}, \quad \hat{x}_i = \mathbf{q}_i^T \mathbf{b} \]

Her katsayı bağımsız bir dot product.

“The component along the i-th basis vector is just qᵢ transpose b — a dot product.” — Strang, 24:47

Builder Notu: Ortonormal bazda koordinat = projeksiyon. Bu, Fourier serisi, PCA skorları, wavelet katsayılarının ortak formülü.

18.7 Gram-Schmidt — Temel Fikir

İki bağımsız \(\mathbf{a}, \mathbf{b}\) → ortonormal \(\mathbf{q}_1, \mathbf{q}_2\).

  • \(\mathbf{A} = \mathbf{a}\).
  • \(\mathbf{B} = \mathbf{b} - \frac{\mathbf{A}^T \mathbf{b}}{\mathbf{A}^T \mathbf{A}} \mathbf{A}\) (\(\mathbf{b}\)’den \(\mathbf{A}\) yönündeki izdüşümü çıkar).

Kontrol: \(\mathbf{A}^T \mathbf{B} = \mathbf{A}^T \mathbf{b} - (\mathbf{A}^T \mathbf{b}) = 0\) ✓.

Normalize: \(\mathbf{q}_1 = \mathbf{A}/\|\mathbf{A}\|\), \(\mathbf{q}_2 = \mathbf{B}/\|\mathbf{B}\|\).

Üç vektör için: \(\mathbf{C} = \mathbf{c} - \frac{\mathbf{A}^T \mathbf{c}}{\mathbf{A}^T \mathbf{A}} \mathbf{A} - \frac{\mathbf{B}^T \mathbf{c}}{\mathbf{B}^T \mathbf{B}} \mathbf{B}\).

Sayısal örnek: \(\mathbf{a} = (1, 1, 1), \mathbf{b} = (1, 0, 2)\). \(\mathbf{A}^T \mathbf{b} = 3, \mathbf{A}^T \mathbf{A} = 3\):

\[ \mathbf{B} = (1, 0, 2) - (1, 1, 1) = (0, -1, 1) \]

\[ \mathbf{q}_1 = \tfrac{1}{\sqrt{3}}(1, 1, 1), \quad \mathbf{q}_2 = \tfrac{1}{\sqrt{2}}(0, -1, 1) \]

Builder Notu: Saf Gram-Schmidt sayısal kararsız (kayan-nokta hatası birikir). Pratikte modified Gram-Schmidt veya Householder. ML’de: kararlı RNN, ortonormal baz öğrenme, seyrek kodlama.

18.8 A = QR Ayrışımı ⭐

\[ A = QR \]

  • \(A\): orijinal bağımsız kolonlar.
  • \(Q\): Gram-Schmidt’ten ortonormal kolonlar.
  • \(R = Q^T A\): üst üçgensel.

Neden üst üçgensel? \(R_{ij} = \mathbf{q}_i^T \mathbf{a}_j\). \(i > j\) için \(\mathbf{q}_i\), \(\mathbf{a}_j\)’ye dik (Gram-Schmidt’in inşası): sonraki \(\mathbf{q}\)’lar önceki \(\mathbf{a}\)’lara dik → alt üçgen sıfır.

\(A\) ve \(Q\) aynı kolon uzayına sahip; \(R\) “geçiş matrisi”.

import numpy as np

A = np.array([[1, 1], [1, 0], [1, 2]], dtype=float)
Q, R = np.linalg.qr(A)
print("Q =\n", Q)
print("\nR (üst üçgensel) =\n", R)
print("\nQᵀQ = I?", np.allclose(Q.T @ Q, np.eye(2)))
print("A = QR?", np.allclose(Q @ R, A))

# Iki projeksiyon ayni mi?
P_qr = Q @ Q.T
P_normal = A @ np.linalg.inv(A.T @ A) @ A.T
print("QQᵀ = A(AᵀA)⁻¹Aᵀ?", np.allclose(P_qr, P_normal))

18.9 QR ile Least Squares — Sayısal Üstünlük

\(A^T A \hat{\mathbf{x}} = A^T \mathbf{b}\)’ye \(A = QR\) sok:

\[ R^T Q^T Q R \hat{\mathbf{x}} = R^T Q^T \mathbf{b} \implies R\hat{\mathbf{x}} = Q^T \mathbf{b} \]

\(R\) üst üçgensel → geri yerine koymayla anında.

Avantajlar:

  • \(A^T A\) hiç oluşturulmaz — koşul sayısı \(\kappa(A^T A) = \kappa(A)^2\). QR bundan kaçınır.
  • Kararlılık: ortonormal \(Q\) hata biriktirmez.
  • np.linalg.lstsq arka planda QR (veya daha kararlı SVD).

18.10 Bu Dersin Özeti

  1. Ortonormal (\(\mathbf{q}_i^T \mathbf{q}_j\)).
  2. \(Q^T Q = I\).
  3. Ortogonal matris (\(Q^T = Q^{-1}\)).
  4. Örnekler: permütasyon, rotasyon, Hadamard.
  5. \(P = QQ^T\).
  6. \(\hat{\mathbf{x}} = Q^T \mathbf{b}\).
  7. Gram-Schmidt önceki yönlerin izdüşümünü çıkar.
  8. B formülü.
  9. \(A = QR\).
  10. QR LS sayısal kararlı.
ÖnemliTek bir cümle

Ortonormal kolonlar (\(Q^T Q = I\)) projeksiyonu (\(P = QQ^T\)) ve least squares’i (\(\hat{\mathbf{x}} = Q^T \mathbf{b}\)) ters almasız basitleştirir; Gram-Schmidt → A = QR modern regresyonun sayısal kararlı temeli.

18.11 Kontrol Soruları

\[ Q^T Q = \tfrac{1}{2}\begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix} = I \checkmark \]

Ortogonal. \(Q^T = Q^{-1}\).

\(\mathbf{A} = (1, 0, 1)\), \(\mathbf{q}_1 = \frac{1}{\sqrt{2}}(1, 0, 1)\).

\(\mathbf{A}^T \mathbf{b} = 1, \mathbf{A}^T \mathbf{A} = 2\):

\[ \mathbf{B} = (1, 1, 0) - \tfrac{1}{2}(1, 0, 1) = (\tfrac{1}{2}, 1, -\tfrac{1}{2}) \]

\(\|\mathbf{B}\| = \sqrt{3/2}\), \(\mathbf{q}_2 = \frac{1}{\sqrt{3/2}}(\frac{1}{2}, 1, -\frac{1}{2})\).

\(P = Q(Q^T Q)^{-1} Q^T = Q Q^T\) (\(Q^T Q = I\) sadeleşti).

\(\hat{\mathbf{x}} = Q^T \mathbf{b}\), \(\hat{x}_i = \mathbf{q}_i^T \mathbf{b}\).

Ters alma yok; her katsayı bağımsız dot product.

1. Koşul sayısı: \(\kappa(A^T A) = \kappa(A)^2\) — AᵀA çok daha kötü-koşullu.

2. QR: \(R \hat{\mathbf{x}} = Q^T \mathbf{b}\), \(R\) üst üçgensel → geri yerine koy, \(A^T A\) hiç oluşturulmaz.

3. Kararlılık: ortonormal Q hata biriktirmez.

np.linalg.lstsq arka planda QR/SVD; “normal denklemleri elle ters alma” anti-pattern.

18.12 Egzersizler

Egzersiz 1. \(\mathbf{a} = (1,1,0), \mathbf{b} = (1,0,1), \mathbf{c} = (0,1,1)\) → ortonormal \(\mathbf{q}_1, \mathbf{q}_2, \mathbf{q}_3\).

Egzersiz 2. \(Q = \frac{1}{3}\begin{pmatrix} 2 & -1 & 2 \\ 2 & 2 & -1 \\ -1 & 2 & 2 \end{pmatrix}\) ortogonal mi? Bir vektörü çarp, uzunluk korunsun.

Egzersiz 3. \(\mathbf{a} = (3, 4)\)\(\mathbf{q}_1\), sonra \(\mathbf{q}_2 \perp \mathbf{q}_1\) (2D’de iki yol).

Egzersiz 4. (Python) np.linalg.qr ile A = QR, projeksiyon karşılaştırması.

Egzersiz 5. İspatla: Ortogonal \(Q\) uzunluk ve dot product korur. (İpucu: \(\|Q\mathbf{x}\|^2 = \mathbf{x}^T Q^T Q \mathbf{x}\).) Bu, SVD’nin \(U, V\)’sinin neden “katı hareket” olduğunu açıklar.

18.13 Sonraki Ders İçin Hazırlık

Ders 18: Determinant ve Özellikleri

  • Üç tanımlayıcı özellik (\(\det I = 1\), satır takası işaret, lineerlik).
  • Yedi türev sonuç.
  • Tersinirlik testi: \(\det = 0 \iff\) tekil.
UyarıDers 18 öncesi
  • Egzersiz 5 (uzunluk koruma).
  • np.linalg.qr ile birkaç matris.

18.14 Anahtar Kavramlar (Cheat Sheet)

Kavram Tanım Strang’da
Ortonormal vektör \(\mathbf{q}_i^T \mathbf{q}_j = \delta_{ij}\) 0m51
\(Q^T Q = I\) Ortonormal kolonların imzası 3m23
Ortogonal matris Kare \(Q\), \(Q^T = Q^{-1}\) 6m59
Rotasyon \((\cos, -\sin; \sin, \cos)\) 9m53
\(P = QQ^T\) Ters alma yok; \(Q\) kare → \(P = I\) 17m50
\(\hat{\mathbf{x}} = Q^T \mathbf{b}\) \(\hat{x}_i = \mathbf{q}_i^T \mathbf{b}\) 23m10
Gram-Schmidt Önceki yönlerin izdüşümünü çıkar 25m39
B formülü \(\mathbf{b} - (\mathbf{A}^T \mathbf{b}/\mathbf{A}^T \mathbf{A}) \mathbf{A}\) 31m53
\(A = QR\) \(R\) üst üçgensel 44m53
QR LS \(R\hat{\mathbf{x}} = Q^T \mathbf{b}\) 46m45

18.15 ML Bağlantıları Özeti

İpucu7 köprü
  1. Ortogonal \(Q\) = rotasyon/yansıma\(\|.\|\) korur; ortogonal başlatma.
  2. \(\hat{x}_i = \mathbf{q}_i^T \mathbf{b}\) → Fourier, PCA, wavelet katsayıları.
  3. \(P = QQ^T\) → SVD, PCA yapı taşı.
  4. Gram-Schmidt → Kararlı RNN, ortonormal baz; modified GS / Householder.
  5. \(A = QR\)np.linalg.qr, lstsq arka planı.
  6. \(\kappa(A^T A) = \kappa(A)^2\) → Normal denklemleri elle çözme anti-pattern.
  7. Hadamard / fast transforms → Performer attention, structured random projections.
ÖnemliTek bir şey alıp gideceksen

Ortonormal kolonlar (\(Q^T Q = I\)) projeksiyon + LS’i ters almasız yapar; Gram-Schmidt → A = QR modern regresyonun kararlılık temeli.