14 Yaşam Bilimleri için Yapay Zekâ (Kapanış)

Protein tasarımından kursun bütününe — discrete diffusion, EvoDiff ve closed-loop bilim

Bölüm bilgisi

Lecture videosu: YouTube — AI for Life Sciences (≈57 dk)
Edition: 2025 misafir, KAPANIŞ DERSİ • Hoca: Ava Soleimany (Microsoft Research, biomedical ML group)
Kaynak: introtodeeplearning.com + Broad Institute MIT/Harvard
Okuma süresi: ≈38 dk

14.1 Bu Derste Ne Var?

Ava bu dersi tek bir görselle başlatıyor: bir milyon kez büyütülmüş hücre zarı kesiti. “Önce manzarayı görün, sonra mekanik düzeye inelim.” Bu, kursu kapatan derstir. 13 ders boyunca kurduğumuz tüm araçlar — perceptron, gradient descent, sequence modeling, CNN, generative modeling, RL, transformer, scaling, MLOps, post-training, agents, etik — bu derste somut bir bilim problemine uygulanıyor: protein tasarımı.

“My day-to-day full-time job is that I’m a researcher at Microsoft Research… the core mission of MSR is to advance the frontiers of science and technology to benefit humanity.” — Ava, 00:29

Dersin üç büyük fikri:

Protein = dil; sequence → structure → function hiyerarşisi. 20-harfli amino asit alfabesi üzerinde dizgi; 50 milyon dizi öğrenme kaynağı.
Discrete diffusion: maskeleme + mutasyon ile generative bilim. Next-token prediction + masked LM’in genellemesi; tüm sıralar + tüm oranlar üzerinden öğrenir.
AI + laboratuvar closed-loop. EvoDiff motif-inpainting ile lab’da fonksiyonel protein üretti. Üç-katmanlı evaluation (bireysel + dağılımsal + lab) modern bilimsel AI’nın standardı.

Şekil 14.1: Kursun kapanış haritası: matematik temellerinden protein tasarımına closed-loop bilim.

“Just at this very very very small slice of that nanoscale world we already see this tremendous complexity. Some elements seem to be semantic and ordered as visualized here but still there’s a lot of structure and a lot of richness.” — Ava, 03:35

Builder Notu — Kursun Bütününe Köprü

Bu son ders kursun tüm ana derslerine değiyor:

Geriye (kursun önceki dersleri):

Ders 1 cross-entropy → Her pozisyonda 20-kategorili multinomial kayıp.
Ders 2 Sequence Modeling (Ava) → Protein = dizi/dil; attention temeli.
Ders 3 CNN → Hiyerarşik temsil sezgisi; dijital patoloji görüntü.
Ders 4 Generative (Ava) → Diffusion’un VAE/GAN’la ortak DNA’sı.
Ders 5 RL → Lab-loop = agent-environment closed loop.
Ders 6 New Frontiers (Ava) → Diffusion temel + LLM açılışı + kalibrasyon.
Ders 7 Üç Yasa → MLOps + eval pipeline (3-katmanlı eval).
Ders 8 AI for Science (Bishop) → Emülatör paradigması + MatterGen → EvoDiff protein versiyonu.
Ders 9 Paralel Eğitim → 50M dizi eğitimi için FSDP, MoE.
Ders 10 Post-training → Motif-conditional = bir tür instruction tuning.
Ders 11 Agents → AR vs masked LM vs discrete diffusion karşılaştırması.
Ders 12 Hipokrat → Dual-use sorumluluk (Horvitz biosafety).

Geriye (matematik temeli): Discrete diffusion = Markov chain (Stat 110 D31); cross-entropy kategorik tahmin (D20); self-supervised learning, doğal dağılım sınıflandırıcı yerine geçer; closed-loop lab (Calculus iteratif sabit nokta — Banach contraction); MSA hizalama (18.06 matrix sütun temsili).

İleriye: AlphaFold 3, RFdiffusion, Boltz, Chai-1/2, ESM-3 ekosistemleri; Active learning + lab automation; multi-modal protein modelleri; closed-loop biyofabrikalar; FDA AI/ML pre-market + biyogüvenlik.

Tek cümleyle: İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi.

14.2 Konuşmacı: Ava — Wet Lab + Computational

Ava’nın hibrit kimliği dersin bütününü şekillendiriyor. Doktora ve doktora sonrası araştırmasının büyük kısmını ıslak laboratuvarda (wet lab) geçirdi. Doktoranın sonuna doğru farkına vardı: biyolojiyi mühendislik için temel hesap sistemi olarak görmek mümkün.

Sadece “bir AI grubu protein üretti” değil; “deneylerle eğitilmiş AI ekibi, bir AI sistemi tasarladı, kendileri lab’a dönüp doğruladı.” Bu, Bishop’un Ders 8’de bahsettiği dördüncü bilim paradigması (AI emülatör) ile gözlem-deney klasik bilimi arasındaki köprünün canlı örneği.

MSR vizyon zinciri:

Foundational research — temel akademik araştırma
Responsible deployment — etik + güvenli dağıtım (Ders 12’ye köprü)
Human benefit — bireyleri ve kurumları güçlendirme

14.3 Nanoölçek = Bilgisayar Sistemi

Açık-yeşil/turuncu/mor boyalı yapıların hepsi ayrı protein molekülleri. Her biri belirli bir görevi yerine getiriyor: enzim, taşıyıcı, reseptör, yapı iskeleti. Hücre = bu proteinlerin koreografisi.

Klasik DL ↔︎ Biyolojik veri:

Klasik DL girdi	Biyolojik karşılığı
Doğal dil (sequence)	Biyomoleküller (amino asit, nükleotit dizisi)
Görüntü (image)	Hücre mikroskopisi, doku patolojisi
Konuşma (audio)	Genetik dizileme, kütle spektrometresi
Görev: sınıflandırma	Görev: protein fonksiyonu tahmini
Görev: üretim	Görev: yeni protein/molekül tasarımı

14.4 Predictive vs Generative — Biyolojiye Uyarlama

“Now when we consider this framework applied to the biological world, the problems are still very similar, but the types of data that we’re interacting with and the types of decisions that we may want to make at the end can be very different.” — Ava, 04:14

İki yönlü akış:

Predictive: “Bu biyomolekülün fonksiyonu nedir? Bir ilaca hücre nasıl tepki verecek?”
Generative: “Bir fonksiyon istiyorum (örn. meme kanseri hücrelerine bağlanan + ilaç taşıyan protein). Bu fonksiyonu gerçekleyecek bir protein dizisi tasarla.”

Ava’nın kritik vurgusu: AI yalnız çalışmaz. Modelin tahminini test etmek, eğitim verisini toplamak — her ikisi de gerçek dünya deneyi gerektirir. AI + lab eşleşmesi olmadan biyolojik AI sürdürülebilir değil.

14.5 Protein 3-Katmanlı Hiyerarşi

“Every protein is defined by a sequence of amino acids which you can think of as sort of the chemical building blocks behind a protein.” — Ava, 13:10

Şekil 14.2: Protein 3-katmanlı hiyerarşi: 20-harfli alfabe → katlanma → fonksiyon. Her katmana karşılık bir ML modeli ailesi var.

Amino asit alfabesi: 20 standart amino asit (A, R, N, D, C, …). Bu yapı kelimenin tam anlamıyla dil: vocabulary 20, sentence length değişken.

Ava’nın yaptığı şey hiyerarşide bir basamak yukarı: fonksiyon → dizi. Bir mühendis çıkıp diyor ki: “bana kalsiyum iyonuna bağlanan yeni bir protein tasarla” — model dizi üretir, üretilen dizi laboratuvarda sentezlenir, ölçülür.

Builder Notu

Geriye: Sequence/structure/function hiyerarşisi → 18.06 hiyerarşik temsil (eigendecomposition’la basit boyutlardan karmaşık yapı), Ders 3 CNN hiyerarşisi (kenar → şekil → nesne).

İleriye: Multi-modal protein modeli (dizi + yapı birlikte): ESM-3, Boltz-2, Chai-2 — “ortak temsil uzayında akıl yürütme” çalışmaları.

14.6 Diffusion Özet: Sürekli vs Ayrık

Ava Ders 4 ve Ders 6’da inşa ettiği temeli kısaca hatırlatıyor.

İki adım:

Forward (gürültüleme): Veriden başla, kademe kademe gürültü ekle, sonunda saf gürültü. Bu adım eğitim gerektirmez.
Reverse (gürültü-giderme): Bir sinir ağı eğit ki $t$ adımında gürültülü örnek verince $t-1$ adımındaki sürümü öngörebilsin.

Görüntü için sürekli veri çalışıyor: piksel ⊂ ℝ, Gaussian gürültü ekleme temiz.

Problem: Protein dizisi ayrık. 20 amino asitten birini seçiyorsun, “biraz daha gürültülü” cümle yok.

Ava bunu öğrencilere açıyor:

“This class is fun. Hopefully you’re agreeing with me… we start with clean data in our input space. Now, we need a way to noise it. Any ideas on how we could possibly do this?” — Ava, 17:53

Öğrencilerden cevaplar: token değiştirmek, token eklemek, token maskelemek. Üçü de geçerli.

14.7 Discrete Diffusion: Maskeleme + Mutasyon

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches

fig, axes = plt.subplots(1, 2, figsize=(13, 5))

# Amino asit dizisi örneği
original = ['M', 'K', 'T', 'V', 'A', 'L', 'L', 'A', 'V', 'L']
masked = ['M', '?', 'T', 'V', '?', 'L', 'L', '?', 'V', 'L']
mutated = ['M', 'P', 'T', 'V', 'G', 'L', 'L', 'R', 'V', 'L']

colors_orig = ['#10b981'] * 10

# Sol: Maskeleme
ax = axes[0]
for i, (c_orig, c_mask) in enumerate(zip(original, masked)):
    # Orijinal (üstte)
    ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
    ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold')

    # Maskelenmiş (altta)
    if c_mask == '?':
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#ef4444', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, '[M]', ha='center', va='center', fontsize=10, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mask, ha='center', va='center', fontsize=12, weight='bold')

    ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95),
                arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8))

ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981')
ax.text(4.5, 0.4, 'maskelenmiş ([MASK])', ha='center', fontsize=11, weight='bold', color='#ef4444')
ax.text(4.5, -0.5, '"burası bozulmuş" sinyali var\nmodel kolayca öğrenir', ha='center', fontsize=10, style='italic')
ax.set_xlim(-0.5, 10)
ax.set_ylim(-1.2, 4.8)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Maskeleme diffusion (kolay)', fontsize=12, color='#1e1b4b')

# Sağ: Mutasyon
ax = axes[1]
for i, (c_orig, c_mut) in enumerate(zip(original, mutated)):
    ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
    ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold')

    if c_mut != c_orig:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold')

    ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95),
                arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8))

ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981')
ax.text(4.5, 0.4, 'mutasyon (sahte token)', ha='center', fontsize=11, weight='bold', color='#f59e0b')
ax.text(4.5, -0.5, '"bozulmuş" işareti yok\nmodel uyumsuzluğu sezmeli', ha='center', fontsize=10, style='italic')
ax.set_xlim(-0.5, 10)
ax.set_ylim(-1.2, 4.8)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Mutasyon diffusion (zor)', fontsize=12, color='#1e1b4b')

plt.tight_layout()
plt.show()

Şekil 14.3: Discrete diffusion iki seçenek. Maskeleme (sol): seçilen token [MASK] olur, model ‘burası bozulmuş’ işareti görür. Mutasyon (sağ): seçilen token başka tokenle değişir, model uyumsuzluğu kendi sezmek zorunda.

Notasyon: Forward süreç bir Markov zincir olarak yazılır:

\[ q(x_t \mid x_{t-1}) = \prod_{i} \big( (1-\beta_t)\,\delta_{x_t^{(i)},\,x_{t-1}^{(i)}} + \beta_t \,\delta_{x_t^{(i)},\,[\text{MASK}]} \big) \]

$\beta_t$ adım $t$’de bir tokenin maskelenme olasılığı, $\delta$ Kronecker delta. Reverse model $p_\theta(x_{t-1} \mid x_t)$ öğrenilir.

Builder Notu

Geriye (Stat 110): Maskelemeli süreç, Markov zinciri (D31) artı kategorik dağılım (D20). Forward’ın eğitim gerektirmemesi, Ders 4 VAE’deki noise eklemeyle aynı yapısal seçim. Reverse adım $\theta$ parametreli sinir ağı, Ders 1 cross-entropy ile eğitilir.

İleriye: SEDD (Score Entropy Discrete Diffusion) — token mutasyonu için skor-tabanlı framework. MDLM (Masked Diffusion Language Model) — Cornell + Google DeepMind, GPT’lere rakip kalite.

14.8 Discrete Diffusion = AR + Masked LM Genellemesi

Ava’nın en güzel teorik anı:

“Mathematically and theoretically, this framework of discrete masking diffusion gives us a generalization of a couple of closely related language modeling schemes.” — Ava, 21:50

1. Next-token prediction (AR LM, Ders 11): Sabit sıra, soldan sağa. Her adımda bir sonraki token.

2. Masked LM (BERT): Bütün dizi görünür, sabit bir oranda token maskeli; tek adımda hepsini tahmin et.

3. Discrete diffusion: Bütün olası maskelenme sırası ve bütün olası maskelenme oranı üzerinden öğren.

Şema	Sıra	Adım sayısı	Genellik
AR (next-token)	Sabit, sol→sağ	N (her token bir adım)	Düşük
Masked LM (BERT)	Yok	1	Düşük
Discrete diffusion	Tüm sıralar üzerinden	T (ayarlanabilir)	Yüksek

Bu bir önceki iki şemayı kapsayan çerçevedir.

Builder Notu

Geriye: “Genelleme” mantığı Ders 6 universal approximation ruhuyla: daha esnek hipotez uzayı → potansiyel olarak daha iyi sonuç. Ders 11’deki Bayesian LM tezi (P(token|bağlam)) burada genelleşmiş: P(adım t-1 | adım t, mevcut bağlam).

İleriye: Any-order autoregressive modeller, iterative refinement decoding, parallel decoding.

14.9 EvoDiff: 50M Dizi + Evolutionary Alignments

“We developed a new generative model that we call EvoDiff that gives us a foundation to this approach. EvoDiff is a diffusion-based model, a generative model for functional protein design.” — Ava, 15:52

Veri ölçeği:

~50 milyon benzersiz protein dizisi
Tüm yaşam ağacı boyunca (bakteri, arke, ökaryot)
Anotasyon yok — saf dizi verisi

Eğitim varyantları:

EvoDiff-Seq: Tek dizi, discrete diffusion.
EvoDiff-MSA: Çoklu Dizi Hizalaması ile evrimsel bağlam.

MSA neden faydalı? Doğa milyonlarca yıl önce her amino asit pozisyonunun hangi mutasyonlara izin verdiğini test etti. Aynı fonksiyonu yapan akraba proteinler aynı pozisyonlarda benzer kalıyor — evrimsel bilgi pozisyonel kısıtlar olarak modele giriyor.

“Importantly, all this learning is occurring entirely over sequence space, so that structure on the right is just an end visualization for our purposes. There’s no information about the structure that’s given to the model.” — Ava, 25:14

Bu nokta kritik: model sadece dizi görüyor. Yapı, post-hoc AlphaFold tahmininden geliyor. Buna rağmen ortaya çıkan diziler stabil katlanan yapılar üretiyor — yani dizi-yapı ilişkisi modele örtük olarak gömülmüş.

Builder Notu

Geriye: Self-supervised, anotasyonsuz öğrenme — Ders 4 VAE’nin temel ruhu, Ders 6 diffusion’un denoising görevinin biyolojik versiyonu. MSA fikri bilgi-teorik: aynı fonksiyonu kodlayan farklı diziler eşdeğer örnekler; konum başına entropi, fonksiyonel önemi yansıtır.

İleriye: ESM Atlas (Meta, 700M protein), UniProt, UniRef50/90 eğitim veritabanları. ESM-3 sequence + structure + function üçlü modaliteyi birleştiriyor.

14.10 Evaluation — Üç Katmanlı

“It’s not so easy to just look at accuracy. You need to think about very carefully how you evaluate the quality of your generations.” — Ava, 25:50

fig, ax = plt.subplots(figsize=(11, 7))

layers = [
    {'name': 'C — LABORATUVAR FONKSİYONEL TEST', 'detail': 'In vitro: E. coli\'de express + yapısal kararlılık (CD, NMR)\nKalsiyum bağlama testi (gerçek protein)\nTek bilinçli doğrulama',
     'color': '#be185d', 'y': 5, 'width': 4},
    {'name': 'B — DAĞILIMSAL KAPSAMA', 'detail': 'Embedding uzayında üretilen örneklerin dağılımı\nDoğal proteinlerin dağılımı ile karşılaştırma\nMode collapse tespit',
     'color': '#f59e0b', 'y': 3.5, 'width': 6.5},
    {'name': 'A — BİREYSEL KALİTE (scTM)', 'detail': 'AlphaFold ile yapı tahmin → geri dizi tahmini\nSelf-consistency skoru (scTM/scRMSD)\nTekil örneğin "sound" olup olmadığı',
     'color': '#10b981', 'y': 2, 'width': 9},
]

for layer in layers:
    x_start = (10 - layer['width']) / 2
    ax.add_patch(patches.FancyBboxPatch((x_start, layer['y']), layer['width'], 1.4,
                                          boxstyle="round,pad=0.1",
                                          facecolor=layer['color'], alpha=0.4,
                                          edgecolor=layer['color'], linewidth=2.5))
    ax.text(5, layer['y']+1.05, layer['name'], ha='center', fontsize=11, weight='bold', color='#1e1b4b')
    ax.text(5, layer['y']+0.4, layer['detail'], ha='center', fontsize=9, color='#1e1b4b')

# Yön okları (alt → üst yükselen zorluk)
ax.annotate('artan\nzorluk &\ngüvenilirlik', xy=(0.5, 5.5), xytext=(0.5, 2.5),
            arrowprops=dict(arrowstyle='->', color='#7c3aed', lw=2),
            fontsize=10, color='#7c3aed', ha='center', va='center', weight='bold')

ax.text(5, 7, 'EvoDiff Evaluation Piramidi', ha='center', fontsize=14, weight='bold', color='#1e1b4b')
ax.text(5, 6.5, 'her katman farklı başarısızlık modunu yakalar — üçü birden geçen örnek = "production-ready"',
        ha='center', fontsize=10, style='italic', color='#475569')

ax.set_xlim(-0.5, 10.5)
ax.set_ylim(1.5, 7.5)
ax.set_aspect('equal')
ax.axis('off')
plt.tight_layout()
plt.show()

Şekil 14.4: EvoDiff 3-katmanlı evaluation piramidi. Her katman farklı bir başarısızlık modunu yakalar; üçü birden geçen örnek gerçek dünyada güvenle kullanılabilir.

Üç katman:

A — Bireysel kalite (scTM): Üretilen diziye AlphaFold ile yapı tahmin et → geri-dön (sequence design model) → orijinal dizi ile dön-dizi arasındaki benzerlik scTM/scRMSD (self-consistency).

B — Dağılımsal kapsama: Binlerce-onbinlerce örnek al. ESM ile özellik çıkar, 2D’ye projekte et. Doğal proteinlerin dağılımı ile karşılaştır.

Yöntem	Dağılımsal kapsama	Yorum
EvoDiff (discrete diffusion, sequence)	Geniş, az boşluk	Tüm-MSA çeşitliliği görüyor
Next-token prediction LM	EvoDiff’e yakın, biraz üstün	Klasik yaklaşım hâlâ güçlü
Masked 1-step LM	Sınırlı, EvoDiff’in altında	Tek-adım maskeleme zayıf
Structure-only (RFdiffusion)	Çok yanlı (alpha-helix lehine)	Yapı verisi 300K’dan az

C — Laboratuvar fonksiyonel testi: Ava’nın grubu EvoDiff’in tasarımlarından dördünü seçti, biyolojik sentez ile gerçek proteine dönüştürdü (E. coli’de express ederek), yapısal kararlılığı ölçtü. Sonuç: Dördü de stabil katlanıyor.

Builder Notu

Geriye: Stat 110 hipotez testi (D33) + dağılım karşılaştırması (KL/Wasserstein), Ders 4 GAN ayırıcı ruhu, Ders 6 kalibrasyon — bir kez “doğru” yetmez, sürekli doğrulanmalı (Ders 12 Doug Blank “your evals” tezinin biyolojide somut hâli).

İleriye: Active learning + lab-loop; modelin en güvensiz olduğu örnekler lab’e gider, dönen veri ile model güncellenir. pLDDT (AlphaFold güvenlik skoru), scTM benchmark araçları.

14.11 Motif Inpainting — “Biyolojik Prompting”

EvoDiff’in en zarif uygulaması bu:

“By learning over all possible ways to mask step by step, EvoDiff can actually learn to look at a sequence where a small portion of those tokens are masked and infill or inpaint just those masked portions.” — Ava, 30:35

Mantık: discrete diffusion tüm olası maskeleme sıraları üzerinde eğitildiği için, bazı tokenleri sabit tut + gerisini tasarla yapısı doğal olarak destekleniyor.

fig, ax = plt.subplots(figsize=(13, 5))

# 20 pozisyonluk dizi
positions = list(range(20))
# Motif yeşil, etraf gri
motif_pos = [8, 9, 10, 11]
amino_acids_motif = ['D', 'K', 'N', 'D']  # EF-hand benzeri kalsiyum motifi
amino_acids_designed = ['M', 'A', 'R', 'L', 'V', 'I', 'P', 'G', 'D', 'K', 'N', 'D', 'F', 'S', 'T', 'Y', 'A', 'V', 'L', 'E']

# Input (üst): tüm [MASK] hariç motif
for i in positions:
    if i in motif_pos:
        ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 3.35, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#cbd5e1', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 3.35, '?', ha='center', va='center', fontsize=11, weight='bold', color='#475569')

ax.text(9, 4.2, 'INPUT: kalsiyum-bağlayıcı motif sabit (yeşil) + etraf [MASK]', ha='center', fontsize=11, weight='bold', color='#1e1b4b')

# Ok aşağı
ax.annotate('', xy=(9, 1.5), xytext=(9, 2.9), arrowprops=dict(arrowstyle='->', color='#be185d', lw=2.5))
ax.text(9.5, 2.2, 'EvoDiff\ninpaint', fontsize=11, color='#be185d', weight='bold')

# Output (alt): tüm dizi tasarlanmış
for i in positions:
    if i in motif_pos:
        ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')

ax.text(9, -0.5, 'OUTPUT: motif korundu (yeşil) + yeni etraf tasarlandı (turuncu) → fonksiyonel protein', ha='center', fontsize=11, weight='bold', color='#1e1b4b')

ax.set_xlim(-0.5, 19)
ax.set_ylim(-1.2, 5)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Motif Inpainting — Biyolojik Prompting', fontsize=12, color='#1e1b4b', weight='bold')
plt.tight_layout()
plt.show()

Şekil 14.5: Motif inpainting şeması: bilinen fonksiyonel motif (yeşil, sabit) korunur; etrafındaki dizi (gri, [MASK]) EvoDiff tarafından tasarlanır. Sonuç: motifi içeren yepyeni protein.

Somut örnek: Hedef: kalsiyum bağlayan bir protein tasarla.

Bilinen kalsiyum-bağlayıcı motif al (örn. EF-hand motifi).
Bu motifin amino asit dizisini fix olarak ver.
Geri kalan dizinin etrafını EvoDiff’e tasarlattır.
Sonuç: motifi içeren, yepyeni bir protein dizisi.

Lab doğrulaması:

Tasarlanan protein E. coli’de eksprese edildi.
Kalsiyum bağlama kapasitesi ölçüldü.
Sonuç: doğal versiyon kadar iyi olmasa da açık ölçülebilir bağlama → fonksiyonel başarı.

“We do see that this method actually yields functional proteins… this is just a first step. These are first experiments to get at a sense of the capabilities.” — Ava, 32:40

Ava mütevazi konuşuyor. “İlk adım”, “tam fonksiyon değil ama ölçülebilir fonksiyon”. Bilim böyle ilerliyor.

Builder Notu

Geriye: Ders 4 conditional generation (CVAE class-conditional), Ders 11 prompt engineering — “biyolojik prompt” doğrudan paralel: model’i belirli bir biyolojik fonksiyona doğru yönlendir.

İleriye: RFdiffusion motif scaffolding (yapı uzayında aynı görev), Chroma (Generate Biomedicines), Baker lab Nobel 2024 protein design.

14.12 Büyük Resim: Protein → Hücre → Doku → Hasta

Ava EvoDiff’i tek bir araştırma çıktısı olarak değil, hiyerarşinin bir basamağı olarak konumlandırıyor:

Şekil 14.6: Closed-loop bilim: protein → hücre → doku → hasta → klinik. Her basamakta AI tahminleri + lab deneyleri + ölçümler + model güncellemesi döngüsü.

Closed-loop vizyon: Klinik veri toplama → AI eğitimi → AI tahminleri → Lab deneyleri → Ölçümler → Model güncellemesi → Daha iyi öneriler → Klinik etki.

Bu döngü tek seferlik proje değil; sürekli işleyen bir sistem.

Builder Notu

Geriye: Hiyerarşi mantığı Ders 3 CNN feature hierarchy ile aynı yapısal sezgi. Closed-loop, Ders 5 RL biyomedikal versiyonu.

İleriye: Microsoft AI4Health, Insitro, Recursion Pharmaceuticals, Genentech computational biology, Isomorphic Labs (DeepMind spinout).

14.13 Soru-Cevap Özeti

Soru 1 (Diffusion vs alternatif): “Diffusion model dışında protein tasarımı için ne var?” Ava: Ana alternatif yapı-tabanlı yaklaşımlar (RFdiffusion). Fark veri ölçeğinde: 50M+ dizi var ama sadece ~300K deneyimsel olarak çözümlenmiş yapı. İki yaklaşım tamamlayıcı.

Soru 2 (Yapısal bias): “Yapısal yöntem neden alpha-helix yanlı?” Ava: Mevcut çözümlenmiş yapılar kompakt, küresel, suda-çözünür proteinleri içeriyor — laboratuvar X-ray kristalografi koşullarına uyanlar. Bu sınıf alpha-helix ağırlıklı.

Soru 3 (Sequence + structure): “EvoDiff yapı bilgisini de alabilir mi?” Ava: Aktif araştırma. Üç yaklaşım: (a) ortak temsil uzayı, (b) sequence model + yapı embedding injection, (c) iki-yönlü cross-attention.

Soru 4 (Protease substrate): “Hedef bir proteaza karşı kesim substratı tasarlayabilir misiniz?” Ava: Üzerinde çalıştıkları aktif iş. EvoDiff ile değil — iki etkileşen molekül; EvoDiff tek-molekül için.

Soru 5 (Gradient’siz kalite): “Kaliteyi nasıl öğretiyorsunuz?” Ava: Self-supervised. Doğal proteinlerin dağılımı zaten stabilite + fonksiyon kalıplarını içeriyor. Model bütün dağılımı öğrenirse, ürettiği örnekler kısıtları örtük olarak içeriyor.

Soru 6 (Dual-use güvenlik): “EvoDiff’in çift-kullanım potansiyeli?” Ava: Çok ciddi mesele. Microsoft chief scientific officer Eric Horvitz biyogüvenlik için aktif advokasi yapıyor. Bu, Ders 12’deki Doug Blank’in “your AI your responsibility” tezinin biyoloji versiyonu.

14.14 Kursun Bütününe Köprü

Bu son ders kursun tüm ana derslerine değiyor:

Önceki ders	Bu derste nerede
Ders 1 cross-entropy	Her pozisyonda 20-kategorili multinomial kayıp
Ders 2 Sequence Modeling	Protein = dizi/dil; attention protein LM temeli
Ders 3 CNN	Hiyerarşik temsil; dijital patoloji görüntü
Ders 4 Generative	Diffusion’un VAE/GAN’la ortak DNA’sı
Ders 5 RL	Lab-loop = agent-environment closed loop
Ders 6 New Frontiers	Diffusion temel + kalibrasyon
Ders 7 Üç Yasa	MLOps + eval pipeline (3-katmanlı eval)
Ders 8 AI for Science	Bishop emülatör + MatterGen → EvoDiff protein versiyonu
Ders 9 Paralel Eğitim	50M dizi için FSDP, MoE
Ders 10 Post-training	Motif-conditional = instruction tuning
Ders 11 Agents	AR vs masked LM vs discrete diffusion
Ders 12 Hipokrat	Dual-use sorumluluk (Horvitz biyogüvenlik)

14.15 Bu Dersin Özeti

Protein = dil: 20-harfli amino asit alfabesi; sequence → structure → function 3-katmanlı hiyerarşi.
Discrete diffusion: Token maskeleme (veya mutasyon) ile kademeli bozma + ters yön sinir ağıyla öğrenilir.
AR + masked LM genellemesi: Discrete diffusion tüm olası sıralar + tüm olası oranlar üzerinden öğrenir.
EvoDiff: 50M tek dizi + MSA evrimsel sinyal. Self-supervised, anotasyonsuz.
Self-supervised kalite: Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir.
3-katmanlı evaluation: bireysel scTM + dağılımsal kapsama + laboratuvar fonksiyonel test.
Motif inpainting: Bilinen motifi sabitle, etrafını tasarlat — “biyolojik prompting”.
Lab loop: AI tahmini → sentez → ölçüm → model güncellemesi (sürekli iyileşme).
Hiyerarşi: Molekül → hücre → doku → hasta → klinik (her basamakta closed-loop).
Dual-use sorumluluk: Açık-kaynak yayınlamadan önce risk değerlendirmesi (Horvitz white-paper’ları).

İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi. Bu derste EvoDiff’le protein cephesinde gösterildi; aynı çerçeve materyal, ilaç, ECU tuning, finans gibi başka tüm domain’lere taşınabilir.

14.16 Kontrol Soruları

Soru 1 — Discrete diffusion neden AR’in genellemesi?

Cevap: Üç açıdan:

Sıra: Next-token sabit sola-sağa; discrete diffusion tüm olası sıralar üzerinden öğrenir.
Adım sayısı: Next-token N token için N adım; diffusion ayarlanabilir T adım (T < N bile mümkün — paralel decoding).
Bağlam: Next-token sadece sol-bağlam (causal mask); diffusion tüm dizide görünür olmayan tokenler hariç hepsini görür — çift yönlü.

Bu üç özellik birleşince diffusion AR ve masked-LM’i özel durum olarak içeriyor.

Soru 2 — 3-katmanlı evaluation neden hepsi gerekli?

Cevap: Her katman farklı bir başarısızlık modunu yakalar.

Bireysel kalite (scTM): Tekil örneğin “sound” olup olmadığı. Yüksek scTM ama dar dağılım = mode collapse.
Dağılımsal kapsama: Model çeşitli mi? Düşük çeşitlilik = pratik kullanım kısıtlı. Yüksek çeşitlilik + düşük kalite = işe yaramaz.
Laboratuvar test: Tek bilinçli doğrulama. Model in-silico mükemmel ama in-vitro stabil değil olabilir.

Üç katmanın hepsi geçen örnek = gerçek dünyada güvenle kullanılabilir. Bishop’un Ders 8’deki emülatör + lab döngüsünün protein versiyonu.

Soru 3 — EvoDiff sadece dizi görüyor, stabil yapı nasıl?

Cevap: İki kaynak:

Evrimsel kısıtlar dizide kodlu. Bir protein milyonlarca yıl önce stabil katlanıyorsa, mutasyonların çoğu istenmeyen ve elimine olmuş. Geriye kalan diziler doğal seleksiyon süzgecinden geçmiş.
MSA + evrim modu. Akraba dizileri MSA olarak modele beslemek konum bazında kısıtları açığa çıkarıyor (konum X her zaman hidrofobik, konum Y her zaman pozitif yüklü).

Sonuç: model “yapıyı bilmiyor” ama yapıya götüren istatistiksel imzaları biliyor. Ders 11’deki Bayesian dil modeli felsefesi: P(yapı | dizi) örtük olarak P(dizi)’de saklı.

Soru 4 — EvoDiff’i ECU tuning’e uyarla

Cevap: Prensip olarak evet. Gerekenler:

Veri: Çok sayıda OEM + tuned binary (10K+, ideal 100K+).
Tokenization: Binary’i byte-block veya fonksiyonel birim (map blokları) cinsinden token’la.
Discrete diffusion: Token maskele/değiştir → tasarla.
Motif inpainting: Bilinen safety-critical map’leri sabitle; geri kalan kalibrasyonu tasarla. Bu, ECU safety rules ile birlikte fizik-kısıt destekli üretim demek.
Lab loop: Dyno’da fonksiyonel test → ölçüm → modele dön.

Engeller: veri ölçeği, düzenleme (yüksek-risk Katman 2 — Ders 12), dual-use. Yine de araştırma sorusu olarak doğrudan paralel.

14.17 Egzersizler

Egzersiz 1 — Protein LM mini fine-tune. HuggingFace’tan ESM-2 (8M veya 35M) modelini indir. Bir küçük amino asit dizisi listesinin (örn. 100 enzim) üzerinde masked language modeling ile fine-tune et. Maskeleme oranı %15 (BERT-vari). Eğitim öncesi ve sonrası modelin maskeli pozisyonları tahmin başarısını ölç.

Egzersiz 2 — Discrete diffusion manuel. 10-token bir dummy “dizi” oluştur (vocabulary 5). Forward süreci elle simüle et: T=10 adımda kademeli olarak [MASK] olasılığını $\beta_t = t/T$ ile artır. Sonunda diziyi pure-mask hâline getir. Her adımda dizinin görünür-token oranını çiz.

Egzersiz 3 — 3-katmanlı eval taslağı. Bir generative model çıktısı (LLM veya başka bir generator) için 3-katmanlı evaluation pipeline taslağı yaz: (A) bireysel kalite metric’i (LLM-judge veya scTM benzeri), (B) dağılımsal kapsama (embedding + PCA + KL divergence), (C) fonksiyonel test (gerçek kullanım senaryosu). Hangi metriğin hangi başarısızlık modunu yakaladığını açıkla.

Egzersiz 4 — Motif inpainting prompt’u. Bir LLM’e (Claude/GPT) “biyolojik prompting” tarzı bir prompt yaz: “Aşağıdaki Python fonksiyonun gövdesini doldur, signature ve return type sabit kalsın:” def calculate_risk(reward: float, hazard: float) -> dict:. Modelin sabit kısma dokunmadan doğru tasarımı tamamlayıp tamamlamadığını incele. Discrete diffusion motif inpainting paralelini kendi cümlenle yaz.

Egzersiz 5 — Bu kursun kendi sentezi. 13 dersi bir sayfada özetle: her ders için (a) bir cümle ana fikir, (b) bir kavram kursun matematik temellerine (Calculus, Linear Algebra, Stat 110) bağlı, (c) bir kavram ileriye (modern uygulamaya) bağlı. Bu egzersiz, kursu bir yıl sonra hatırlamanın en iyi yolu.

14.18 Kurs Kapanışı — Sonraki Adım Önerileri

Bu, kursun son sayfası. Aynı zamanda builder yolculuğunun bir aşaması.

Ava dersi şu cümle ile bitiriyor:

“It’s tremendous thanks to the fantastic colleagues that I’m privileged to work with every day… it’s an awesome team of not only great scientists but really really great people that I’m lucky to be a part of.” — Ava, 54:31

Ve seyirciden son cümle: “Excellent. Thank you, Ava. Let’s all thank Ava one more time.”

Bu Türkçe öğretim seti de aynı yerden kapanıyor. 13 ders, perceptron’dan protein tasarımına; gradient descent’ten discrete diffusion’a; calculus zincir kuralından evrimsel diziler arası MSA’ya. Builder ekseni boyunca her kavram ya öncesindeki üç matematik kursuna (Linear Algebra, Stat 110, Calculus) geriye ya da production/research alanına ileriye bağlandı.

Kurs yasal/etik kapanışı (Ders 12) ile bilim kapanışı (bu ders) yan yana koyuyor — bu rastlantı değil. Yapay zekâyı yaşam bilimlerine getirmek hem büyük fırsat hem büyük sorumluluk. Bu ikisini ayrı düşünmeyen bir mühendis kuşağı yetiştirmek 6.S191’in açık hedefi.

Kurs Kapanışı — Bir Sonraki Adım

Buradan ileri yol haritası:

Mevcut araştırma alanlarından birinde derinleşme — LLM, agents, AI4Science, biomedical, motorsport ECU, finans. Bir konuya 6 ay+ odaklan; yüzeyel 10 konu değil.
Bir araştırma grubunda en az 6 ay süren bir proje — akademi (lab) veya endüstri (R&D). Tek başına okumak yetmez; birlikte üreten topluluk gerekir.
Hibrit beceriler (ML + alan uzmanlığı) — bu kursun en güçlü mesajı. Sadece ML mühendisi değil, “X domain’ini ML ile yapabilen mühendis” ol. Ava’nın wet-lab + computational hibrit kimliği bunun canlı örneği.
Sürekli evaluation + sürekli sorumluluk — Doug Blank’ın “your AI your responsibility” ve Ava’nın “AI + lab loop” çerçevesi birlikte. Her commit’te eval, her sürümde risk değerlendirmesi.
Kursun matematik temelleri üzerinden geri dönüş — Calculus, Linear Algebra, Stat 110 üçlüsünü tekrar tekrar oku. Bishop’un Ders 8’deki sözüyle “deeper, more permanent foundation.”

Bir sonraki ders yok. Bu kursun sonu. Ama yolun başı.

14.19 Anahtar Kavramlar (Cheat Sheet)

#	Kavram	Pratik özet
1	Protein temel veri	20-harfli amino asit alfabesi; uzunluk 50-500 tipik
2	3-katman hiyerarşi	Sequence → Structure → Function
3	Discrete diffusion	Token maskeleme (veya mutasyon) + ters yön sinir ağı
4	Maskeleme süreci	$q(x_t \\| x_{t-1})$: pozisyonlar $\beta_t$ olasılıkla [MASK]
5	Genelleme	Discrete diffusion = AR + masked-LM’in supersedi
6	EvoDiff data	50M tek dizi + MSA evrimsel sinyal
7	Self-supervised kalite	Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir
8	3-katmanlı evaluation	scTM + dağılımsal + lab fonksiyonel
9	Motif inpainting	Bilinen motif sabit, etraf tasarlanır — “biyolojik prompting”
10	Dual-use güvenlik	Açık-kaynaktan önce risk değerlendirmesi (Horvitz biosafety)

14.20 ML Builder Bağlantıları — Kursun Tüm Köprüleri

Kursun bütüne köprü tablosu

Kavram	Geriye (matematik)	İleriye (uygulama)
Discrete diffusion	Markov chain (Stat 110 D31), kategorik dağılım (D20)	SEDD, MDLM, parallel decoding
Cross-entropy	Bernoulli MLE (Stat 110 D8, D17)	Tüm classification + LM loss
Self-supervised	Olasılık dağılımının kendisi sınıflandırıcı	Foundation models, ESM, GPT
Closed-loop lab	Calculus iteratif sabit nokta (Banach contraction)	Active learning, lab automation
MSA hizalama	18.06 matrix sütun temsili	ESM-3, AlphaFold 3 multi-mer
Hiyerarşik temsil	18.06 eigendecomposition; CNN feature hierarchy	Multi-modal protein, dijital patoloji
Risk × ödül	Stat 110 koşullu beklenti (D25)	EU AI Act, NIST AI RMF
Generative eval	Stat 110 hipotez testi (D33), KL/Wasserstein	Promptfoo, LLM-judge, lab metric’leri

Tek cümleyle, kursun tamamı: Perceptron + gradient descent + backprop (Ders 1) ile başlayan derin öğrenme, sequence + CNN + generative + RL (Ders 2-5) ile araç kazandı; new frontiers + MLOps + AI4Science + paralel eğitim (Ders 6-9) ile production’a çıktı; post-training + agents + etik (Ders 10-12) ile sorumlu modern AI oldu; ve yaşam bilimleri (Ders 13) ile bilim için araç hâline geldi. Her adım bir öncekine ve sonrakine bağlı.

Bu kurstan tek bir şey alıp gideceksen: AI bir bilimsel + mühendislik artefaktıdır. Matematik temelleri (linear algebra, calculus, probability) derin olduğu için tekniği takip edebilir; evaluation + lab loop + etik sorumluluk sürekli olduğu için ürünleri ayakta tutabilirsin. Ava’nın 50 milyon protein dizisi üzerinde öğrenen modeli + dört lab-doğrulanmış tasarımı, hem büyüklüğün hem dikkatin gücünü gösteriyor: yeterli ölçek + doğru framework + sabırlı doğrulama = gerçek bilim.

Thank you, Ava. Ve thank you, Alex/Ava/Bishop/Doug/Maxime/Erica — kursun konuşmacıları. Buradan ileri yol, builder’a kalmış.

--- title: "Yaşam Bilimleri için Yapay Zekâ (Kapanış)" subtitle: "Protein tasarımından kursun bütününe — discrete diffusion, EvoDiff ve closed-loop bilim" --- ::: {.callout-note title="Bölüm bilgisi"} - **Lecture videosu:** [YouTube — AI for Life Sciences](https://www.youtube.com/watch?v=SSzSOeGP87I&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI&index=19) (≈57 dk) - **Edition:** 2025 misafir, **KAPANIŞ DERSİ** • **Hoca:** Ava Soleimany (Microsoft Research, biomedical ML group) - **Kaynak:** [introtodeeplearning.com](https://introtodeeplearning.com) + Broad Institute MIT/Harvard - **Okuma süresi:** ≈38 dk ::: ## Bu Derste Ne Var? {#sec-bu-derste} Ava bu dersi tek bir görselle başlatıyor: **bir milyon kez büyütülmüş hücre zarı kesiti**. "Önce manzarayı görün, sonra mekanik düzeye inelim." Bu, kursu **kapatan** derstir. 13 ders boyunca kurduğumuz tüm araçlar — perceptron, gradient descent, sequence modeling, CNN, generative modeling, RL, transformer, scaling, MLOps, post-training, agents, etik — bu derste **somut bir bilim problemine** uygulanıyor: protein tasarımı. > *"My day-to-day full-time job is that I'm a researcher at Microsoft Research... the core mission of MSR is to advance the frontiers of science and technology to benefit humanity."* — Ava, 00:29 **Dersin üç büyük fikri:** 1. **Protein = dil; sequence → structure → function hiyerarşisi.** 20-harfli amino asit alfabesi üzerinde dizgi; 50 milyon dizi öğrenme kaynağı. 2. **Discrete diffusion: maskeleme + mutasyon ile generative bilim.** Next-token prediction + masked LM'in **genellemesi**; tüm sıralar + tüm oranlar üzerinden öğrenir. 3. **AI + laboratuvar closed-loop.** EvoDiff motif-inpainting ile **lab'da fonksiyonel protein** üretti. Üç-katmanlı evaluation (bireysel + dağılımsal + lab) modern bilimsel AI'nın standardı. ![Kursun kapanış haritası: matematik temellerinden protein tasarımına closed-loop bilim.](images/mermaid/13-yas-concept-map.png){#fig-concept-map fig-align="center" width=85%} > *"Just at this very very very small slice of that nanoscale world we already see this tremendous complexity. Some elements seem to be semantic and ordered as visualized here but still there's a lot of structure and a lot of richness."* — Ava, 03:35 ::: {.callout-tip title="Builder Notu — Kursun Bütününe Köprü"} Bu son ders kursun **tüm** ana derslerine değiyor: **Geriye (kursun önceki dersleri):** - **Ders 1 cross-entropy** → Her pozisyonda 20-kategorili multinomial kayıp. - **Ders 2 Sequence Modeling** (Ava) → Protein = dizi/dil; attention temeli. - **Ders 3 CNN** → Hiyerarşik temsil sezgisi; dijital patoloji görüntü. - **Ders 4 Generative** (Ava) → Diffusion'un VAE/GAN'la ortak DNA'sı. - **Ders 5 RL** → Lab-loop = agent-environment closed loop. - **Ders 6 New Frontiers** (Ava) → Diffusion temel + LLM açılışı + kalibrasyon. - **Ders 7 Üç Yasa** → MLOps + eval pipeline (3-katmanlı eval). - **Ders 8 AI for Science** (Bishop) → Emülatör paradigması + MatterGen → EvoDiff protein versiyonu. - **Ders 9 Paralel Eğitim** → 50M dizi eğitimi için FSDP, MoE. - **Ders 10 Post-training** → Motif-conditional = bir tür instruction tuning. - **Ders 11 Agents** → AR vs masked LM vs discrete diffusion karşılaştırması. - **Ders 12 Hipokrat** → Dual-use sorumluluk (Horvitz biosafety). **Geriye (matematik temeli):** Discrete diffusion = Markov chain (Stat 110 D31); cross-entropy kategorik tahmin (D20); self-supervised learning, doğal dağılım sınıflandırıcı yerine geçer; closed-loop lab (Calculus iteratif sabit nokta — Banach contraction); MSA hizalama (18.06 matrix sütun temsili). **İleriye:** AlphaFold 3, RFdiffusion, Boltz, Chai-1/2, ESM-3 ekosistemleri; Active learning + lab automation; multi-modal protein modelleri; closed-loop biyofabrikalar; FDA AI/ML pre-market + biyogüvenlik. **Tek cümleyle:** İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi. ::: ## Konuşmacı: Ava — Wet Lab + Computational {#sec-konusmaci} Ava'nın hibrit kimliği dersin bütününü şekillendiriyor. Doktora ve doktora sonrası araştırmasının büyük kısmını **ıslak laboratuvarda** (wet lab) geçirdi. Doktoranın sonuna doğru farkına vardı: biyolojiyi **mühendislik için temel hesap sistemi** olarak görmek mümkün. Sadece "bir AI grubu protein üretti" değil; "deneylerle eğitilmiş AI ekibi, bir AI sistemi tasarladı, kendileri lab'a dönüp doğruladı." Bu, Bishop'un [Ders 8'de](08-bilim-icin-yapay-zeka.qmd) bahsettiği **dördüncü bilim paradigması** (AI emülatör) ile gözlem-deney klasik bilimi arasındaki köprünün canlı örneği. **MSR vizyon zinciri:** 1. **Foundational research** — temel akademik araştırma 2. **Responsible deployment** — etik + güvenli dağıtım (Ders 12'ye köprü) 3. **Human benefit** — bireyleri ve kurumları güçlendirme ## Nanoölçek = Bilgisayar Sistemi {#sec-nano} Açık-yeşil/turuncu/mor boyalı yapıların hepsi **ayrı protein molekülleri**. Her biri belirli bir görevi yerine getiriyor: enzim, taşıyıcı, reseptör, yapı iskeleti. Hücre = bu proteinlerin koreografisi. Klasik DL ↔ Biyolojik veri: | Klasik DL girdi | Biyolojik karşılığı | |----|----| | Doğal dil (sequence) | Biyomoleküller (amino asit, nükleotit dizisi) | | Görüntü (image) | Hücre mikroskopisi, doku patolojisi | | Konuşma (audio) | Genetik dizileme, kütle spektrometresi | | Görev: sınıflandırma | Görev: protein fonksiyonu tahmini | | Görev: üretim | Görev: yeni protein/molekül tasarımı | ## Predictive vs Generative — Biyolojiye Uyarlama {#sec-predictive-generative} > *"Now when we consider this framework applied to the biological world, the problems are still very similar, but the types of data that we're interacting with and the types of decisions that we may want to make at the end can be very different."* — Ava, 04:14 İki yönlü akış: - **Predictive:** "Bu biyomolekülün fonksiyonu nedir? Bir ilaca hücre nasıl tepki verecek?" - **Generative:** "Bir fonksiyon istiyorum (örn. meme kanseri hücrelerine bağlanan + ilaç taşıyan protein). Bu fonksiyonu gerçekleyecek bir protein dizisi tasarla." Ava'nın kritik vurgusu: **AI yalnız çalışmaz**. Modelin tahminini test etmek, eğitim verisini toplamak — her ikisi de **gerçek dünya deneyi** gerektirir. AI + lab eşleşmesi olmadan biyolojik AI sürdürülebilir değil. ## Protein 3-Katmanlı Hiyerarşi {#sec-hiyerarsi} > *"Every protein is defined by a sequence of amino acids which you can think of as sort of the chemical building blocks behind a protein."* — Ava, 13:10 ![Protein 3-katmanlı hiyerarşi: 20-harfli alfabe → katlanma → fonksiyon. Her katmana karşılık bir ML modeli ailesi var.](images/mermaid/13-yas-protein-hierarchy.png){#fig-protein-hierarchy fig-align="center" width=85%} Amino asit alfabesi: 20 standart amino asit (A, R, N, D, C, ...). Bu yapı kelimenin tam anlamıyla **dil**: vocabulary 20, sentence length değişken. Ava'nın yaptığı şey hiyerarşide bir basamak yukarı: **fonksiyon → dizi**. Bir mühendis çıkıp diyor ki: "bana kalsiyum iyonuna bağlanan yeni bir protein tasarla" — model dizi üretir, üretilen dizi laboratuvarda sentezlenir, ölçülür. ::: {.callout-tip title="Builder Notu"} **Geriye:** Sequence/structure/function hiyerarşisi → 18.06 hiyerarşik temsil (eigendecomposition'la basit boyutlardan karmaşık yapı), Ders 3 CNN hiyerarşisi (kenar → şekil → nesne). **İleriye:** Multi-modal protein modeli (dizi + yapı birlikte): ESM-3, Boltz-2, Chai-2 — "ortak temsil uzayında akıl yürütme" çalışmaları. ::: ## Diffusion Özet: Sürekli vs Ayrık {#sec-diffusion-ozet} Ava Ders 4 ve Ders 6'da inşa ettiği temeli kısaca hatırlatıyor. İki adım: 1. **Forward (gürültüleme):** Veriden başla, kademe kademe gürültü ekle, sonunda saf gürültü. **Bu adım eğitim gerektirmez**. 2. **Reverse (gürültü-giderme):** Bir sinir ağı eğit ki $t$ adımında gürültülü örnek verince $t-1$ adımındaki sürümü öngörebilsin. **Görüntü için sürekli** veri çalışıyor: piksel ⊂ ℝ, Gaussian gürültü ekleme temiz. **Problem:** Protein dizisi **ayrık**. 20 amino asitten birini seçiyorsun, "biraz daha gürültülü" cümle yok. Ava bunu öğrencilere açıyor: > *"This class is fun. Hopefully you're agreeing with me... we start with clean data in our input space. Now, we need a way to noise it. Any ideas on how we could possibly do this?"* — Ava, 17:53 Öğrencilerden cevaplar: **token değiştirmek**, **token eklemek**, **token maskelemek**. Üçü de geçerli. ## Discrete Diffusion: Maskeleme + Mutasyon {#sec-discrete-diffusion} ```{python} #| label: fig-mask-vs-mutate #| fig-cap: "Discrete diffusion iki seçenek. Maskeleme (sol): seçilen token [MASK] olur, model 'burası bozulmuş' işareti görür. Mutasyon (sağ): seçilen token başka tokenle değişir, model uyumsuzluğu kendi sezmek zorunda." #| fig-width: 13 #| fig-height: 5 import numpy as np import matplotlib.pyplot as plt import matplotlib.patches as patches fig, axes = plt.subplots(1, 2, figsize=(13, 5)) # Amino asit dizisi örneği original = ['M', 'K', 'T', 'V', 'A', 'L', 'L', 'A', 'V', 'L'] masked = ['M', '?', 'T', 'V', '?', 'L', 'L', '?', 'V', 'L'] mutated = ['M', 'P', 'T', 'V', 'G', 'L', 'L', 'R', 'V', 'L'] colors_orig = ['#10b981'] * 10 # Sol: Maskeleme ax = axes[0] for i, (c_orig, c_mask) in enumerate(zip(original, masked)): # Orijinal (üstte) ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black')) ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold') # Maskelenmiş (altta) if c_mask == '?': ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#ef4444', alpha=0.6, edgecolor='black')) ax.text(i*0.9 + 0.4, 1.35, '[M]', ha='center', va='center', fontsize=10, weight='bold', color='white') else: ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black')) ax.text(i*0.9 + 0.4, 1.35, c_mask, ha='center', va='center', fontsize=12, weight='bold') ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95), arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8)) ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981') ax.text(4.5, 0.4, 'maskelenmiş ([MASK])', ha='center', fontsize=11, weight='bold', color='#ef4444') ax.text(4.5, -0.5, '"burası bozulmuş" sinyali var\nmodel kolayca öğrenir', ha='center', fontsize=10, style='italic') ax.set_xlim(-0.5, 10) ax.set_ylim(-1.2, 4.8) ax.set_aspect('equal') ax.axis('off') ax.set_title('Maskeleme diffusion (kolay)', fontsize=12, color='#1e1b4b') # Sağ: Mutasyon ax = axes[1] for i, (c_orig, c_mut) in enumerate(zip(original, mutated)): ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black')) ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold') if c_mut != c_orig: ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black')) ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold', color='white') else: ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black')) ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold') ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95), arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8)) ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981') ax.text(4.5, 0.4, 'mutasyon (sahte token)', ha='center', fontsize=11, weight='bold', color='#f59e0b') ax.text(4.5, -0.5, '"bozulmuş" işareti yok\nmodel uyumsuzluğu sezmeli', ha='center', fontsize=10, style='italic') ax.set_xlim(-0.5, 10) ax.set_ylim(-1.2, 4.8) ax.set_aspect('equal') ax.axis('off') ax.set_title('Mutasyon diffusion (zor)', fontsize=12, color='#1e1b4b') plt.tight_layout() plt.show() ``` **Notasyon:** Forward süreç bir Markov zincir olarak yazılır: $$ q(x_t \mid x_{t-1}) = \prod_{i} \big( (1-\beta_t)\,\delta_{x_t^{(i)},\,x_{t-1}^{(i)}} + \beta_t \,\delta_{x_t^{(i)},\,[\text{MASK}]} \big) $$ $\beta_t$ adım $t$'de bir tokenin maskelenme olasılığı, $\delta$ Kronecker delta. Reverse model $p_\theta(x_{t-1} \mid x_t)$ öğrenilir. ::: {.callout-tip title="Builder Notu"} **Geriye (Stat 110):** Maskelemeli süreç, **Markov zinciri** (D31) artı **kategorik dağılım** (D20). Forward'ın eğitim gerektirmemesi, Ders 4 VAE'deki noise eklemeyle aynı yapısal seçim. Reverse adım $\theta$ parametreli sinir ağı, Ders 1 cross-entropy ile eğitilir. **İleriye:** **SEDD** (Score Entropy Discrete Diffusion) — token mutasyonu için skor-tabanlı framework. **MDLM** (Masked Diffusion Language Model) — Cornell + Google DeepMind, GPT'lere rakip kalite. ::: ## Discrete Diffusion = AR + Masked LM Genellemesi {#sec-genellemesi} Ava'nın en güzel teorik anı: > *"Mathematically and theoretically, this framework of discrete masking diffusion gives us a generalization of a couple of closely related language modeling schemes."* — Ava, 21:50 **1. Next-token prediction (AR LM, Ders 11):** Sabit sıra, soldan sağa. Her adımda **bir** sonraki token. **2. Masked LM (BERT):** Bütün dizi görünür, sabit bir oranda token maskeli; **tek adımda** hepsini tahmin et. **3. Discrete diffusion:** Bütün olası **maskelenme sırası** ve bütün olası **maskelenme oranı** üzerinden öğren. | Şema | Sıra | Adım sayısı | Genellik | |------|------|-------------|----------| | AR (next-token) | Sabit, sol→sağ | N (her token bir adım) | Düşük | | Masked LM (BERT) | Yok | 1 | Düşük | | Discrete diffusion | Tüm sıralar üzerinden | T (ayarlanabilir) | Yüksek | Bu **bir önceki iki şemayı kapsayan** çerçevedir. ::: {.callout-tip title="Builder Notu"} **Geriye:** "Genelleme" mantığı Ders 6 universal approximation ruhuyla: daha esnek hipotez uzayı → potansiyel olarak daha iyi sonuç. Ders 11'deki Bayesian LM tezi (P(token|bağlam)) burada genelleşmiş: P(adım t-1 | adım t, mevcut bağlam). **İleriye:** **Any-order autoregressive** modeller, **iterative refinement** decoding, **parallel decoding**. ::: ## EvoDiff: 50M Dizi + Evolutionary Alignments {#sec-evodiff} > *"We developed a new generative model that we call EvoDiff that gives us a foundation to this approach. EvoDiff is a diffusion-based model, a generative model for functional protein design."* — Ava, 15:52 **Veri ölçeği:** - ~50 milyon **benzersiz** protein dizisi - Tüm yaşam ağacı boyunca (bakteri, arke, ökaryot) - Anotasyon **yok** — saf dizi verisi **Eğitim varyantları:** 1. **EvoDiff-Seq:** Tek dizi, discrete diffusion. 2. **EvoDiff-MSA:** **Çoklu Dizi Hizalaması** ile evrimsel bağlam. MSA neden faydalı? Doğa milyonlarca yıl önce her amino asit pozisyonunun **hangi mutasyonlara izin verdiğini** test etti. Aynı fonksiyonu yapan akraba proteinler aynı pozisyonlarda benzer kalıyor — **evrimsel bilgi pozisyonel kısıtlar olarak modele giriyor**. > *"Importantly, all this learning is occurring entirely over sequence space, so that structure on the right is just an end visualization for our purposes. There's no information about the structure that's given to the model."* — Ava, 25:14 Bu nokta kritik: model **sadece dizi** görüyor. Yapı, post-hoc AlphaFold tahmininden geliyor. Buna rağmen ortaya çıkan diziler **stabil katlanan** yapılar üretiyor — yani dizi-yapı ilişkisi modele örtük olarak gömülmüş. ::: {.callout-tip title="Builder Notu"} **Geriye:** Self-supervised, anotasyonsuz öğrenme — Ders 4 VAE'nin temel ruhu, Ders 6 diffusion'un denoising görevinin biyolojik versiyonu. MSA fikri bilgi-teorik: aynı fonksiyonu kodlayan farklı diziler eşdeğer örnekler; konum başına entropi, fonksiyonel önemi yansıtır. **İleriye:** **ESM Atlas** (Meta, 700M protein), **UniProt**, **UniRef50/90** eğitim veritabanları. ESM-3 sequence + structure + function üçlü modaliteyi birleştiriyor. ::: ## Evaluation — Üç Katmanlı {#sec-evaluation} > *"It's not so easy to just look at accuracy. You need to think about very carefully how you evaluate the quality of your generations."* — Ava, 25:50 ```{python} #| label: fig-eval-piramit #| fig-cap: "EvoDiff 3-katmanlı evaluation piramidi. Her katman farklı bir başarısızlık modunu yakalar; üçü birden geçen örnek gerçek dünyada güvenle kullanılabilir." #| fig-width: 11 #| fig-height: 7 fig, ax = plt.subplots(figsize=(11, 7)) layers = [ {'name': 'C — LABORATUVAR FONKSİYONEL TEST', 'detail': 'In vitro: E. coli\'de express + yapısal kararlılık (CD, NMR)\nKalsiyum bağlama testi (gerçek protein)\nTek bilinçli doğrulama', 'color': '#be185d', 'y': 5, 'width': 4}, {'name': 'B — DAĞILIMSAL KAPSAMA', 'detail': 'Embedding uzayında üretilen örneklerin dağılımı\nDoğal proteinlerin dağılımı ile karşılaştırma\nMode collapse tespit', 'color': '#f59e0b', 'y': 3.5, 'width': 6.5}, {'name': 'A — BİREYSEL KALİTE (scTM)', 'detail': 'AlphaFold ile yapı tahmin → geri dizi tahmini\nSelf-consistency skoru (scTM/scRMSD)\nTekil örneğin "sound" olup olmadığı', 'color': '#10b981', 'y': 2, 'width': 9}, ] for layer in layers: x_start = (10 - layer['width']) / 2 ax.add_patch(patches.FancyBboxPatch((x_start, layer['y']), layer['width'], 1.4, boxstyle="round,pad=0.1", facecolor=layer['color'], alpha=0.4, edgecolor=layer['color'], linewidth=2.5)) ax.text(5, layer['y']+1.05, layer['name'], ha='center', fontsize=11, weight='bold', color='#1e1b4b') ax.text(5, layer['y']+0.4, layer['detail'], ha='center', fontsize=9, color='#1e1b4b') # Yön okları (alt → üst yükselen zorluk) ax.annotate('artan\nzorluk &\ngüvenilirlik', xy=(0.5, 5.5), xytext=(0.5, 2.5), arrowprops=dict(arrowstyle='->', color='#7c3aed', lw=2), fontsize=10, color='#7c3aed', ha='center', va='center', weight='bold') ax.text(5, 7, 'EvoDiff Evaluation Piramidi', ha='center', fontsize=14, weight='bold', color='#1e1b4b') ax.text(5, 6.5, 'her katman farklı başarısızlık modunu yakalar — üçü birden geçen örnek = "production-ready"', ha='center', fontsize=10, style='italic', color='#475569') ax.set_xlim(-0.5, 10.5) ax.set_ylim(1.5, 7.5) ax.set_aspect('equal') ax.axis('off') plt.tight_layout() plt.show() ``` **Üç katman:** **A — Bireysel kalite (scTM):** Üretilen diziye AlphaFold ile yapı tahmin et → geri-dön (sequence design model) → orijinal dizi ile dön-dizi arasındaki benzerlik **scTM/scRMSD** (self-consistency). **B — Dağılımsal kapsama:** Binlerce-onbinlerce örnek al. ESM ile özellik çıkar, 2D'ye projekte et. Doğal proteinlerin dağılımı ile karşılaştır. | Yöntem | Dağılımsal kapsama | Yorum | |--------|--------------------|-------| | EvoDiff (discrete diffusion, sequence) | Geniş, az boşluk | Tüm-MSA çeşitliliği görüyor | | Next-token prediction LM | EvoDiff'e yakın, biraz üstün | Klasik yaklaşım hâlâ güçlü | | Masked 1-step LM | Sınırlı, EvoDiff'in altında | Tek-adım maskeleme zayıf | | Structure-only (RFdiffusion) | **Çok yanlı** (alpha-helix lehine) | Yapı verisi 300K'dan az | **C — Laboratuvar fonksiyonel testi:** Ava'nın grubu EvoDiff'in tasarımlarından dördünü seçti, **biyolojik sentez** ile gerçek proteine dönüştürdü (E. coli'de express ederek), yapısal kararlılığı ölçtü. Sonuç: Dördü de **stabil katlanıyor**. ::: {.callout-tip title="Builder Notu"} **Geriye:** Stat 110 hipotez testi (D33) + dağılım karşılaştırması (KL/Wasserstein), Ders 4 GAN ayırıcı ruhu, Ders 6 kalibrasyon — bir kez "doğru" yetmez, sürekli doğrulanmalı (Ders 12 Doug Blank "your evals" tezinin biyolojide somut hâli). **İleriye:** **Active learning** + lab-loop; modelin en güvensiz olduğu örnekler lab'e gider, dönen veri ile model güncellenir. **pLDDT** (AlphaFold güvenlik skoru), **scTM** benchmark araçları. ::: ## Motif Inpainting — "Biyolojik Prompting" {#sec-motif-inpainting} EvoDiff'in en zarif uygulaması bu: > *"By learning over all possible ways to mask step by step, EvoDiff can actually learn to look at a sequence where a small portion of those tokens are masked and infill or inpaint just those masked portions."* — Ava, 30:35 Mantık: discrete diffusion **tüm olası maskeleme sıraları** üzerinde eğitildiği için, **bazı tokenleri sabit tut** + **gerisini tasarla** yapısı doğal olarak destekleniyor. ```{python} #| label: fig-motif-inpainting #| fig-cap: "Motif inpainting şeması: bilinen fonksiyonel motif (yeşil, sabit) korunur; etrafındaki dizi (gri, [MASK]) EvoDiff tarafından tasarlanır. Sonuç: motifi içeren yepyeni protein." #| fig-width: 13 #| fig-height: 5 fig, ax = plt.subplots(figsize=(13, 5)) # 20 pozisyonluk dizi positions = list(range(20)) # Motif yeşil, etraf gri motif_pos = [8, 9, 10, 11] amino_acids_motif = ['D', 'K', 'N', 'D'] # EF-hand benzeri kalsiyum motifi amino_acids_designed = ['M', 'A', 'R', 'L', 'V', 'I', 'P', 'G', 'D', 'K', 'N', 'D', 'F', 'S', 'T', 'Y', 'A', 'V', 'L', 'E'] # Input (üst): tüm [MASK] hariç motif for i in positions: if i in motif_pos: ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black')) ax.text(i*0.9 + 0.4, 3.35, amino_acids_designed[i], ha='center', va='center', fontsize=11, weight='bold', color='white') else: ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#cbd5e1', alpha=0.7, edgecolor='black')) ax.text(i*0.9 + 0.4, 3.35, '?', ha='center', va='center', fontsize=11, weight='bold', color='#475569') ax.text(9, 4.2, 'INPUT: kalsiyum-bağlayıcı motif sabit (yeşil) + etraf [MASK]', ha='center', fontsize=11, weight='bold', color='#1e1b4b') # Ok aşağı ax.annotate('', xy=(9, 1.5), xytext=(9, 2.9), arrowprops=dict(arrowstyle='->', color='#be185d', lw=2.5)) ax.text(9.5, 2.2, 'EvoDiff\ninpaint', fontsize=11, color='#be185d', weight='bold') # Output (alt): tüm dizi tasarlanmış for i in positions: if i in motif_pos: ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black')) ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center', fontsize=11, weight='bold', color='white') else: ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black')) ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center', fontsize=11, weight='bold', color='white') ax.text(9, -0.5, 'OUTPUT: motif korundu (yeşil) + yeni etraf tasarlandı (turuncu) → fonksiyonel protein', ha='center', fontsize=11, weight='bold', color='#1e1b4b') ax.set_xlim(-0.5, 19) ax.set_ylim(-1.2, 5) ax.set_aspect('equal') ax.axis('off') ax.set_title('Motif Inpainting — Biyolojik Prompting', fontsize=12, color='#1e1b4b', weight='bold') plt.tight_layout() plt.show() ``` **Somut örnek:** Hedef: **kalsiyum bağlayan** bir protein tasarla. 1. **Bilinen** kalsiyum-bağlayıcı motif al (örn. EF-hand motifi). 2. Bu motifin amino asit dizisini **fix** olarak ver. 3. Geri kalan dizinin **etrafını** EvoDiff'e tasarlattır. 4. Sonuç: motifi içeren, yepyeni bir protein dizisi. Lab doğrulaması: - Tasarlanan protein E. coli'de eksprese edildi. - Kalsiyum bağlama kapasitesi ölçüldü. - Sonuç: **doğal versiyon kadar iyi olmasa da** açık ölçülebilir bağlama → fonksiyonel başarı. > *"We do see that this method actually yields functional proteins... this is just a first step. These are first experiments to get at a sense of the capabilities."* — Ava, 32:40 Ava **mütevazi** konuşuyor. "İlk adım", "tam fonksiyon değil ama ölçülebilir fonksiyon". Bilim böyle ilerliyor. ::: {.callout-tip title="Builder Notu"} **Geriye:** Ders 4 conditional generation (CVAE class-conditional), Ders 11 prompt engineering — "biyolojik prompt" doğrudan paralel: model'i belirli bir biyolojik fonksiyona doğru yönlendir. **İleriye:** RFdiffusion motif scaffolding (yapı uzayında aynı görev), Chroma (Generate Biomedicines), Baker lab Nobel 2024 protein design. ::: ## Büyük Resim: Protein → Hücre → Doku → Hasta {#sec-buyuk-resim} Ava EvoDiff'i tek bir araştırma çıktısı olarak değil, **hiyerarşinin bir basamağı** olarak konumlandırıyor: ![Closed-loop bilim: protein → hücre → doku → hasta → klinik. Her basamakta AI tahminleri + lab deneyleri + ölçümler + model güncellemesi döngüsü.](images/mermaid/13-yas-hierarchy.png){#fig-hierarchy fig-align="center" width=85%} **Closed-loop vizyon:** Klinik veri toplama → AI eğitimi → AI tahminleri → Lab deneyleri → Ölçümler → Model güncellemesi → Daha iyi öneriler → Klinik etki. Bu döngü **tek seferlik proje** değil; sürekli işleyen bir sistem. ::: {.callout-tip title="Builder Notu"} **Geriye:** Hiyerarşi mantığı Ders 3 CNN feature hierarchy ile aynı yapısal sezgi. Closed-loop, Ders 5 RL biyomedikal versiyonu. **İleriye:** Microsoft AI4Health, Insitro, Recursion Pharmaceuticals, Genentech computational biology, Isomorphic Labs (DeepMind spinout). ::: ## Soru-Cevap Özeti {#sec-qa} **Soru 1 (Diffusion vs alternatif):** "Diffusion model dışında protein tasarımı için ne var?" Ava: Ana alternatif **yapı-tabanlı** yaklaşımlar (RFdiffusion). Fark **veri ölçeğinde**: 50M+ dizi var ama sadece ~300K **deneyimsel olarak çözümlenmiş yapı**. İki yaklaşım **tamamlayıcı**. **Soru 2 (Yapısal bias):** "Yapısal yöntem neden alpha-helix yanlı?" Ava: Mevcut çözümlenmiş yapılar **kompakt, küresel, suda-çözünür** proteinleri içeriyor — laboratuvar X-ray kristalografi koşullarına uyanlar. Bu sınıf alpha-helix ağırlıklı. **Soru 3 (Sequence + structure):** "EvoDiff yapı bilgisini de alabilir mi?" Ava: Aktif araştırma. Üç yaklaşım: (a) ortak temsil uzayı, (b) sequence model + yapı embedding injection, (c) iki-yönlü cross-attention. **Soru 4 (Protease substrate):** "Hedef bir proteaza karşı kesim substratı tasarlayabilir misiniz?" Ava: Üzerinde çalıştıkları aktif iş. EvoDiff ile değil — iki etkileşen molekül; EvoDiff tek-molekül için. **Soru 5 (Gradient'siz kalite):** "Kaliteyi nasıl öğretiyorsunuz?" Ava: **Self-supervised**. Doğal proteinlerin dağılımı zaten **stabilite + fonksiyon kalıplarını içeriyor**. Model bütün dağılımı öğrenirse, ürettiği örnekler kısıtları örtük olarak içeriyor. **Soru 6 (Dual-use güvenlik):** "EvoDiff'in çift-kullanım potansiyeli?" Ava: Çok ciddi mesele. Microsoft chief scientific officer **Eric Horvitz** biyogüvenlik için aktif advokasi yapıyor. Bu, [Ders 12'deki Doug Blank'in](12-ai-hipokrat-yemini.qmd) "your AI your responsibility" tezinin biyoloji versiyonu. ## Kursun Bütününe Köprü {#sec-kursun-koprusu} Bu son ders kursun **tüm** ana derslerine değiyor: | Önceki ders | Bu derste nerede | |-------------|------------------| | [Ders 1 cross-entropy](01-derin-ogrenmeye-giris.qmd) | Her pozisyonda 20-kategorili multinomial kayıp | | [Ders 2 Sequence Modeling](02-derin-dizi-modelleme.qmd) | Protein = dizi/dil; attention protein LM temeli | | [Ders 3 CNN](03-derin-bilgisayarli-goru.qmd) | Hiyerarşik temsil; dijital patoloji görüntü | | [Ders 4 Generative](04-derin-uretken-modelleme.qmd) | Diffusion'un VAE/GAN'la ortak DNA'sı | | [Ders 5 RL](05-derin-pekistirmeli-ogrenme.qmd) | Lab-loop = agent-environment closed loop | | [Ders 6 New Frontiers](06-yeni-sinirlar.qmd) | Diffusion temel + kalibrasyon | | [Ders 7 Üç Yasa](07-yapay-zekanin-uc-yasasi.qmd) | MLOps + eval pipeline (3-katmanlı eval) | | [Ders 8 AI for Science](08-bilim-icin-yapay-zeka.qmd) | Bishop emülatör + MatterGen → EvoDiff protein versiyonu | | [Ders 9 Paralel Eğitim](09-devasa-paralel-egitim.qmd) | 50M dizi için FSDP, MoE | | [Ders 10 Post-training](10-llm-sonrasi-egitim.qmd) | Motif-conditional = instruction tuning | | [Ders 11 Agents](11-buyuk-dil-modelleri-ajanlar.qmd) | AR vs masked LM vs discrete diffusion | | [Ders 12 Hipokrat](12-ai-hipokrat-yemini.qmd) | Dual-use sorumluluk (Horvitz biyogüvenlik) | ## Bu Dersin Özeti {#sec-ozet} 1. **Protein = dil**: 20-harfli amino asit alfabesi; sequence → structure → function 3-katmanlı hiyerarşi. 2. **Discrete diffusion**: Token maskeleme (veya mutasyon) ile kademeli bozma + ters yön sinir ağıyla öğrenilir. 3. **AR + masked LM genellemesi**: Discrete diffusion tüm olası sıralar + tüm olası oranlar üzerinden öğrenir. 4. **EvoDiff**: 50M tek dizi + MSA evrimsel sinyal. Self-supervised, anotasyonsuz. 5. **Self-supervised kalite**: Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir. 6. **3-katmanlı evaluation**: bireysel scTM + dağılımsal kapsama + laboratuvar fonksiyonel test. 7. **Motif inpainting**: Bilinen motifi sabitle, etrafını tasarlat — "biyolojik prompting". 8. **Lab loop**: AI tahmini → sentez → ölçüm → model güncellemesi (sürekli iyileşme). 9. **Hiyerarşi**: Molekül → hücre → doku → hasta → klinik (her basamakta closed-loop). 10. **Dual-use sorumluluk**: Açık-kaynak yayınlamadan önce risk değerlendirmesi (Horvitz white-paper'ları). ::: {.callout-important} İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi. Bu derste EvoDiff'le protein cephesinde gösterildi; aynı çerçeve materyal, ilaç, ECU tuning, finans gibi başka tüm domain'lere taşınabilir. ::: ## Kontrol Soruları {#sec-kontrol} ::: {.callout-note collapse="true" title="Soru 1 — Discrete diffusion neden AR'in genellemesi?"} **Cevap:** Üç açıdan: (a) **Sıra:** Next-token sabit sola-sağa; discrete diffusion **tüm olası sıralar üzerinden** öğrenir. (b) **Adım sayısı:** Next-token N token için N adım; diffusion ayarlanabilir T adım (T < N bile mümkün — paralel decoding). (c) **Bağlam:** Next-token sadece sol-bağlam (causal mask); diffusion **tüm dizide görünür olmayan tokenler hariç hepsini** görür — çift yönlü. Bu üç özellik birleşince diffusion AR ve masked-LM'i **özel durum** olarak içeriyor. ::: ::: {.callout-note collapse="true" title="Soru 2 — 3-katmanlı evaluation neden hepsi gerekli?"} **Cevap:** Her katman farklı bir başarısızlık modunu yakalar. - **Bireysel kalite (scTM):** Tekil örneğin "sound" olup olmadığı. Yüksek scTM ama dar dağılım = **mode collapse**. - **Dağılımsal kapsama:** Model çeşitli mi? Düşük çeşitlilik = pratik kullanım kısıtlı. Yüksek çeşitlilik + düşük kalite = işe yaramaz. - **Laboratuvar test:** Tek bilinçli doğrulama. Model in-silico mükemmel ama in-vitro stabil değil olabilir. Üç katmanın hepsi geçen örnek = **gerçek dünyada güvenle kullanılabilir**. Bishop'un Ders 8'deki emülatör + lab döngüsünün protein versiyonu. ::: ::: {.callout-note collapse="true" title="Soru 3 — EvoDiff sadece dizi görüyor, stabil yapı nasıl?"} **Cevap:** İki kaynak: (a) **Evrimsel kısıtlar dizide kodlu.** Bir protein milyonlarca yıl önce stabil katlanıyorsa, mutasyonların çoğu istenmeyen ve elimine olmuş. Geriye kalan diziler **doğal seleksiyon süzgecinden geçmiş**. (b) **MSA + evrim modu.** Akraba dizileri MSA olarak modele beslemek **konum bazında kısıtları** açığa çıkarıyor (konum X her zaman hidrofobik, konum Y her zaman pozitif yüklü). Sonuç: model "yapıyı bilmiyor" ama yapıya götüren **istatistiksel imzaları** biliyor. Ders 11'deki Bayesian dil modeli felsefesi: P(yapı | dizi) **örtük** olarak P(dizi)'de saklı. ::: ::: {.callout-note collapse="true" title="Soru 4 — EvoDiff'i ECU tuning'e uyarla"} **Cevap:** Prensip olarak evet. Gerekenler: 1. **Veri:** Çok sayıda OEM + tuned binary (10K+, ideal 100K+). 2. **Tokenization:** Binary'i byte-block veya fonksiyonel birim (map blokları) cinsinden token'la. 3. **Discrete diffusion:** Token maskele/değiştir → tasarla. 4. **Motif inpainting:** Bilinen safety-critical map'leri **sabitle**; geri kalan kalibrasyonu tasarla. Bu, [ECU safety rules](07-yapay-zekanin-uc-yasasi.qmd) ile birlikte fizik-kısıt destekli üretim demek. 5. **Lab loop:** Dyno'da fonksiyonel test → ölçüm → modele dön. Engeller: veri ölçeği, düzenleme (yüksek-risk Katman 2 — Ders 12), dual-use. Yine de **araştırma sorusu olarak doğrudan paralel**. ::: ## Egzersizler {#sec-egzersiz} **Egzersiz 1 — Protein LM mini fine-tune.** HuggingFace'tan ESM-2 (8M veya 35M) modelini indir. Bir küçük amino asit dizisi listesinin (örn. 100 enzim) üzerinde masked language modeling ile fine-tune et. Maskeleme oranı %15 (BERT-vari). Eğitim öncesi ve sonrası modelin maskeli pozisyonları tahmin başarısını ölç. **Egzersiz 2 — Discrete diffusion manuel.** 10-token bir dummy "dizi" oluştur (vocabulary 5). Forward süreci elle simüle et: T=10 adımda kademeli olarak [MASK] olasılığını $\beta_t = t/T$ ile artır. Sonunda diziyi pure-mask hâline getir. Her adımda dizinin görünür-token oranını çiz. **Egzersiz 3 — 3-katmanlı eval taslağı.** Bir generative model çıktısı (LLM veya başka bir generator) için **3-katmanlı evaluation pipeline** taslağı yaz: (A) bireysel kalite metric'i (LLM-judge veya scTM benzeri), (B) dağılımsal kapsama (embedding + PCA + KL divergence), (C) fonksiyonel test (gerçek kullanım senaryosu). Hangi metriğin hangi başarısızlık modunu yakaladığını açıkla. **Egzersiz 4 — Motif inpainting prompt'u.** Bir LLM'e (Claude/GPT) "biyolojik prompting" tarzı bir prompt yaz: "Aşağıdaki Python fonksiyonun gövdesini doldur, signature ve return type sabit kalsın:" `def calculate_risk(reward: float, hazard: float) -> dict:`. Modelin sabit kısma dokunmadan doğru tasarımı tamamlayıp tamamlamadığını incele. Discrete diffusion motif inpainting paralelini kendi cümlenle yaz. **Egzersiz 5 — Bu kursun kendi sentezi.** 13 dersi bir sayfada özetle: her ders için (a) bir cümle ana fikir, (b) bir kavram kursun matematik temellerine (Calculus, Linear Algebra, Stat 110) bağlı, (c) bir kavram **ileriye** (modern uygulamaya) bağlı. Bu egzersiz, kursu bir yıl sonra hatırlamanın en iyi yolu. ## Kurs Kapanışı — Sonraki Adım Önerileri {#sec-kurs-kapanisi} Bu, kursun son sayfası. Aynı zamanda **builder yolculuğunun** bir aşaması. Ava dersi şu cümle ile bitiriyor: > *"It's tremendous thanks to the fantastic colleagues that I'm privileged to work with every day... it's an awesome team of not only great scientists but really really great people that I'm lucky to be a part of."* — Ava, 54:31 Ve seyirciden son cümle: *"Excellent. Thank you, Ava. Let's all thank Ava one more time."* Bu Türkçe öğretim seti de aynı yerden kapanıyor. **13 ders**, perceptron'dan protein tasarımına; gradient descent'ten discrete diffusion'a; calculus zincir kuralından evrimsel diziler arası MSA'ya. Builder ekseni boyunca her kavram ya öncesindeki üç matematik kursuna (Linear Algebra, Stat 110, Calculus) **geriye** ya da production/research alanına **ileriye** bağlandı. Kurs **yasal/etik kapanışı** ([Ders 12](12-ai-hipokrat-yemini.qmd)) ile **bilim kapanışı** (bu ders) yan yana koyuyor — bu rastlantı değil. Yapay zekâyı yaşam bilimlerine getirmek hem büyük fırsat hem büyük sorumluluk. Bu ikisini ayrı düşünmeyen bir mühendis kuşağı yetiştirmek 6.S191'in açık hedefi. ::: {.callout-warning title="Kurs Kapanışı — Bir Sonraki Adım"} **Buradan ileri yol haritası:** 1. **Mevcut araştırma alanlarından birinde derinleşme** — LLM, agents, AI4Science, biomedical, motorsport ECU, finans. Bir konuya **6 ay+** odaklan; yüzeyel 10 konu değil. 2. **Bir araştırma grubunda en az 6 ay süren bir proje** — akademi (lab) veya endüstri (R&D). Tek başına okumak yetmez; **birlikte üreten** topluluk gerekir. 3. **Hibrit beceriler** (ML + alan uzmanlığı) — bu kursun en güçlü mesajı. Sadece ML mühendisi değil, "X domain'ini ML ile yapabilen mühendis" ol. Ava'nın wet-lab + computational hibrit kimliği bunun canlı örneği. 4. **Sürekli evaluation + sürekli sorumluluk** — Doug Blank'ın "your AI your responsibility" ve Ava'nın "AI + lab loop" çerçevesi birlikte. Her commit'te eval, her sürümde risk değerlendirmesi. 5. **Kursun matematik temelleri üzerinden geri dönüş** — Calculus, Linear Algebra, Stat 110 üçlüsünü tekrar tekrar oku. Bishop'un Ders 8'deki sözüyle "deeper, more permanent foundation." **Bir sonraki ders yok. Bu kursun sonu.** Ama yolun başı. ::: ## Anahtar Kavramlar (Cheat Sheet) {#sec-cheat} | # | Kavram | Pratik özet | |---|--------|-------------| | 1 | Protein temel veri | 20-harfli amino asit alfabesi; uzunluk 50-500 tipik | | 2 | 3-katman hiyerarşi | Sequence → Structure → Function | | 3 | Discrete diffusion | Token maskeleme (veya mutasyon) + ters yön sinir ağı | | 4 | Maskeleme süreci | $q(x_t \| x_{t-1})$: pozisyonlar $\beta_t$ olasılıkla [MASK] | | 5 | Genelleme | Discrete diffusion = AR + masked-LM'in supersedi | | 6 | EvoDiff data | 50M tek dizi + MSA evrimsel sinyal | | 7 | Self-supervised kalite | Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir | | 8 | 3-katmanlı evaluation | scTM + dağılımsal + lab fonksiyonel | | 9 | Motif inpainting | Bilinen motif sabit, etraf tasarlanır — "biyolojik prompting" | | 10 | Dual-use güvenlik | Açık-kaynaktan önce risk değerlendirmesi (Horvitz biosafety) | ## ML Builder Bağlantıları — Kursun Tüm Köprüleri {#sec-baglantilar} ::: {.callout-tip title="Kursun bütüne köprü tablosu"} | Kavram | Geriye (matematik) | İleriye (uygulama) | |--------|---------------------|---------------------| | Discrete diffusion | Markov chain (Stat 110 D31), kategorik dağılım (D20) | SEDD, MDLM, parallel decoding | | Cross-entropy | Bernoulli MLE (Stat 110 D8, D17) | Tüm classification + LM loss | | Self-supervised | Olasılık dağılımının kendisi sınıflandırıcı | Foundation models, ESM, GPT | | Closed-loop lab | Calculus iteratif sabit nokta (Banach contraction) | Active learning, lab automation | | MSA hizalama | 18.06 matrix sütun temsili | ESM-3, AlphaFold 3 multi-mer | | Hiyerarşik temsil | 18.06 eigendecomposition; CNN feature hierarchy | Multi-modal protein, dijital patoloji | | Risk × ödül | Stat 110 koşullu beklenti (D25) | EU AI Act, NIST AI RMF | | Generative eval | Stat 110 hipotez testi (D33), KL/Wasserstein | Promptfoo, LLM-judge, lab metric'leri | **Tek cümleyle, kursun tamamı:** Perceptron + gradient descent + backprop (Ders 1) ile başlayan derin öğrenme, sequence + CNN + generative + RL (Ders 2-5) ile araç kazandı; new frontiers + MLOps + AI4Science + paralel eğitim (Ders 6-9) ile production'a çıktı; post-training + agents + etik (Ders 10-12) ile sorumlu modern AI oldu; ve yaşam bilimleri (Ders 13) ile **bilim için araç** hâline geldi. Her adım bir öncekine ve sonrakine bağlı. ::: ::: {.callout-important} **Bu kurstan tek bir şey alıp gideceksen:** AI bir bilimsel + mühendislik artefaktıdır. Matematik temelleri (linear algebra, calculus, probability) **derin** olduğu için tekniği takip edebilir; evaluation + lab loop + etik sorumluluk **sürekli** olduğu için ürünleri ayakta tutabilirsin. Ava'nın 50 milyon protein dizisi üzerinde öğrenen modeli + dört lab-doğrulanmış tasarımı, hem büyüklüğün hem dikkatin gücünü gösteriyor: **yeterli ölçek + doğru framework + sabırlı doğrulama = gerçek bilim**. **Thank you, Ava.** Ve thank you, Alex/Ava/Bishop/Doug/Maxime/Erica — kursun konuşmacıları. **Buradan ileri yol, builder'a kalmış.** :::