14  Yaşam Bilimleri için Yapay Zekâ (Kapanış)

Protein tasarımından kursun bütününe — discrete diffusion, EvoDiff ve closed-loop bilim

NotBölüm bilgisi

14.1 Bu Derste Ne Var?

Ava bu dersi tek bir görselle başlatıyor: bir milyon kez büyütülmüş hücre zarı kesiti. “Önce manzarayı görün, sonra mekanik düzeye inelim.” Bu, kursu kapatan derstir. 13 ders boyunca kurduğumuz tüm araçlar — perceptron, gradient descent, sequence modeling, CNN, generative modeling, RL, transformer, scaling, MLOps, post-training, agents, etik — bu derste somut bir bilim problemine uygulanıyor: protein tasarımı.

“My day-to-day full-time job is that I’m a researcher at Microsoft Research… the core mission of MSR is to advance the frontiers of science and technology to benefit humanity.” — Ava, 00:29

Dersin üç büyük fikri:

  1. Protein = dil; sequence → structure → function hiyerarşisi. 20-harfli amino asit alfabesi üzerinde dizgi; 50 milyon dizi öğrenme kaynağı.
  2. Discrete diffusion: maskeleme + mutasyon ile generative bilim. Next-token prediction + masked LM’in genellemesi; tüm sıralar + tüm oranlar üzerinden öğrenir.
  3. AI + laboratuvar closed-loop. EvoDiff motif-inpainting ile lab’da fonksiyonel protein üretti. Üç-katmanlı evaluation (bireysel + dağılımsal + lab) modern bilimsel AI’nın standardı.
Şekil 14.1: Kursun kapanış haritası: matematik temellerinden protein tasarımına closed-loop bilim.

“Just at this very very very small slice of that nanoscale world we already see this tremendous complexity. Some elements seem to be semantic and ordered as visualized here but still there’s a lot of structure and a lot of richness.” — Ava, 03:35

İpucuBuilder Notu — Kursun Bütününe Köprü

Bu son ders kursun tüm ana derslerine değiyor:

Geriye (kursun önceki dersleri):

  • Ders 1 cross-entropy → Her pozisyonda 20-kategorili multinomial kayıp.
  • Ders 2 Sequence Modeling (Ava) → Protein = dizi/dil; attention temeli.
  • Ders 3 CNN → Hiyerarşik temsil sezgisi; dijital patoloji görüntü.
  • Ders 4 Generative (Ava) → Diffusion’un VAE/GAN’la ortak DNA’sı.
  • Ders 5 RL → Lab-loop = agent-environment closed loop.
  • Ders 6 New Frontiers (Ava) → Diffusion temel + LLM açılışı + kalibrasyon.
  • Ders 7 Üç Yasa → MLOps + eval pipeline (3-katmanlı eval).
  • Ders 8 AI for Science (Bishop) → Emülatör paradigması + MatterGen → EvoDiff protein versiyonu.
  • Ders 9 Paralel Eğitim → 50M dizi eğitimi için FSDP, MoE.
  • Ders 10 Post-training → Motif-conditional = bir tür instruction tuning.
  • Ders 11 Agents → AR vs masked LM vs discrete diffusion karşılaştırması.
  • Ders 12 Hipokrat → Dual-use sorumluluk (Horvitz biosafety).

Geriye (matematik temeli): Discrete diffusion = Markov chain (Stat 110 D31); cross-entropy kategorik tahmin (D20); self-supervised learning, doğal dağılım sınıflandırıcı yerine geçer; closed-loop lab (Calculus iteratif sabit nokta — Banach contraction); MSA hizalama (18.06 matrix sütun temsili).

İleriye: AlphaFold 3, RFdiffusion, Boltz, Chai-1/2, ESM-3 ekosistemleri; Active learning + lab automation; multi-modal protein modelleri; closed-loop biyofabrikalar; FDA AI/ML pre-market + biyogüvenlik.

Tek cümleyle: İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi.

14.2 Konuşmacı: Ava — Wet Lab + Computational

Ava’nın hibrit kimliği dersin bütününü şekillendiriyor. Doktora ve doktora sonrası araştırmasının büyük kısmını ıslak laboratuvarda (wet lab) geçirdi. Doktoranın sonuna doğru farkına vardı: biyolojiyi mühendislik için temel hesap sistemi olarak görmek mümkün.

Sadece “bir AI grubu protein üretti” değil; “deneylerle eğitilmiş AI ekibi, bir AI sistemi tasarladı, kendileri lab’a dönüp doğruladı.” Bu, Bishop’un Ders 8’de bahsettiği dördüncü bilim paradigması (AI emülatör) ile gözlem-deney klasik bilimi arasındaki köprünün canlı örneği.

MSR vizyon zinciri:

  1. Foundational research — temel akademik araştırma
  2. Responsible deployment — etik + güvenli dağıtım (Ders 12’ye köprü)
  3. Human benefit — bireyleri ve kurumları güçlendirme

14.3 Nanoölçek = Bilgisayar Sistemi

Açık-yeşil/turuncu/mor boyalı yapıların hepsi ayrı protein molekülleri. Her biri belirli bir görevi yerine getiriyor: enzim, taşıyıcı, reseptör, yapı iskeleti. Hücre = bu proteinlerin koreografisi.

Klasik DL ↔︎ Biyolojik veri:

Klasik DL girdi Biyolojik karşılığı
Doğal dil (sequence) Biyomoleküller (amino asit, nükleotit dizisi)
Görüntü (image) Hücre mikroskopisi, doku patolojisi
Konuşma (audio) Genetik dizileme, kütle spektrometresi
Görev: sınıflandırma Görev: protein fonksiyonu tahmini
Görev: üretim Görev: yeni protein/molekül tasarımı

14.4 Predictive vs Generative — Biyolojiye Uyarlama

“Now when we consider this framework applied to the biological world, the problems are still very similar, but the types of data that we’re interacting with and the types of decisions that we may want to make at the end can be very different.” — Ava, 04:14

İki yönlü akış:

  • Predictive: “Bu biyomolekülün fonksiyonu nedir? Bir ilaca hücre nasıl tepki verecek?”
  • Generative: “Bir fonksiyon istiyorum (örn. meme kanseri hücrelerine bağlanan + ilaç taşıyan protein). Bu fonksiyonu gerçekleyecek bir protein dizisi tasarla.”

Ava’nın kritik vurgusu: AI yalnız çalışmaz. Modelin tahminini test etmek, eğitim verisini toplamak — her ikisi de gerçek dünya deneyi gerektirir. AI + lab eşleşmesi olmadan biyolojik AI sürdürülebilir değil.

14.5 Protein 3-Katmanlı Hiyerarşi

“Every protein is defined by a sequence of amino acids which you can think of as sort of the chemical building blocks behind a protein.” — Ava, 13:10

Şekil 14.2: Protein 3-katmanlı hiyerarşi: 20-harfli alfabe → katlanma → fonksiyon. Her katmana karşılık bir ML modeli ailesi var.

Amino asit alfabesi: 20 standart amino asit (A, R, N, D, C, …). Bu yapı kelimenin tam anlamıyla dil: vocabulary 20, sentence length değişken.

Ava’nın yaptığı şey hiyerarşide bir basamak yukarı: fonksiyon → dizi. Bir mühendis çıkıp diyor ki: “bana kalsiyum iyonuna bağlanan yeni bir protein tasarla” — model dizi üretir, üretilen dizi laboratuvarda sentezlenir, ölçülür.

İpucuBuilder Notu

Geriye: Sequence/structure/function hiyerarşisi → 18.06 hiyerarşik temsil (eigendecomposition’la basit boyutlardan karmaşık yapı), Ders 3 CNN hiyerarşisi (kenar → şekil → nesne).

İleriye: Multi-modal protein modeli (dizi + yapı birlikte): ESM-3, Boltz-2, Chai-2 — “ortak temsil uzayında akıl yürütme” çalışmaları.

14.6 Diffusion Özet: Sürekli vs Ayrık

Ava Ders 4 ve Ders 6’da inşa ettiği temeli kısaca hatırlatıyor.

İki adım:

  1. Forward (gürültüleme): Veriden başla, kademe kademe gürültü ekle, sonunda saf gürültü. Bu adım eğitim gerektirmez.
  2. Reverse (gürültü-giderme): Bir sinir ağı eğit ki \(t\) adımında gürültülü örnek verince \(t-1\) adımındaki sürümü öngörebilsin.

Görüntü için sürekli veri çalışıyor: piksel ⊂ ℝ, Gaussian gürültü ekleme temiz.

Problem: Protein dizisi ayrık. 20 amino asitten birini seçiyorsun, “biraz daha gürültülü” cümle yok.

Ava bunu öğrencilere açıyor:

“This class is fun. Hopefully you’re agreeing with me… we start with clean data in our input space. Now, we need a way to noise it. Any ideas on how we could possibly do this?” — Ava, 17:53

Öğrencilerden cevaplar: token değiştirmek, token eklemek, token maskelemek. Üçü de geçerli.

14.7 Discrete Diffusion: Maskeleme + Mutasyon

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches

fig, axes = plt.subplots(1, 2, figsize=(13, 5))

# Amino asit dizisi örneği
original = ['M', 'K', 'T', 'V', 'A', 'L', 'L', 'A', 'V', 'L']
masked = ['M', '?', 'T', 'V', '?', 'L', 'L', '?', 'V', 'L']
mutated = ['M', 'P', 'T', 'V', 'G', 'L', 'L', 'R', 'V', 'L']

colors_orig = ['#10b981'] * 10

# Sol: Maskeleme
ax = axes[0]
for i, (c_orig, c_mask) in enumerate(zip(original, masked)):
    # Orijinal (üstte)
    ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
    ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold')

    # Maskelenmiş (altta)
    if c_mask == '?':
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#ef4444', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, '[M]', ha='center', va='center', fontsize=10, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mask, ha='center', va='center', fontsize=12, weight='bold')

    ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95),
                arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8))

ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981')
ax.text(4.5, 0.4, 'maskelenmiş ([MASK])', ha='center', fontsize=11, weight='bold', color='#ef4444')
ax.text(4.5, -0.5, '"burası bozulmuş" sinyali var\nmodel kolayca öğrenir', ha='center', fontsize=10, style='italic')
ax.set_xlim(-0.5, 10)
ax.set_ylim(-1.2, 4.8)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Maskeleme diffusion (kolay)', fontsize=12, color='#1e1b4b')

# Sağ: Mutasyon
ax = axes[1]
for i, (c_orig, c_mut) in enumerate(zip(original, mutated)):
    ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
    ax.text(i*0.9 + 0.4, 3.35, c_orig, ha='center', va='center', fontsize=12, weight='bold')

    if c_mut != c_orig:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 1), 0.8, 0.7, facecolor='#10b981', alpha=0.4, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 1.35, c_mut, ha='center', va='center', fontsize=12, weight='bold')

    ax.annotate('', xy=(i*0.9 + 0.4, 2), xytext=(i*0.9 + 0.4, 2.95),
                arrowprops=dict(arrowstyle='->', color='#475569', lw=0.8))

ax.text(4.5, 4.2, 'orijinal', ha='center', fontsize=11, weight='bold', color='#10b981')
ax.text(4.5, 0.4, 'mutasyon (sahte token)', ha='center', fontsize=11, weight='bold', color='#f59e0b')
ax.text(4.5, -0.5, '"bozulmuş" işareti yok\nmodel uyumsuzluğu sezmeli', ha='center', fontsize=10, style='italic')
ax.set_xlim(-0.5, 10)
ax.set_ylim(-1.2, 4.8)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Mutasyon diffusion (zor)', fontsize=12, color='#1e1b4b')

plt.tight_layout()
plt.show()
Şekil 14.3: Discrete diffusion iki seçenek. Maskeleme (sol): seçilen token [MASK] olur, model ‘burası bozulmuş’ işareti görür. Mutasyon (sağ): seçilen token başka tokenle değişir, model uyumsuzluğu kendi sezmek zorunda.

Notasyon: Forward süreç bir Markov zincir olarak yazılır:

\[ q(x_t \mid x_{t-1}) = \prod_{i} \big( (1-\beta_t)\,\delta_{x_t^{(i)},\,x_{t-1}^{(i)}} + \beta_t \,\delta_{x_t^{(i)},\,[\text{MASK}]} \big) \]

\(\beta_t\) adım \(t\)’de bir tokenin maskelenme olasılığı, \(\delta\) Kronecker delta. Reverse model \(p_\theta(x_{t-1} \mid x_t)\) öğrenilir.

İpucuBuilder Notu

Geriye (Stat 110): Maskelemeli süreç, Markov zinciri (D31) artı kategorik dağılım (D20). Forward’ın eğitim gerektirmemesi, Ders 4 VAE’deki noise eklemeyle aynı yapısal seçim. Reverse adım \(\theta\) parametreli sinir ağı, Ders 1 cross-entropy ile eğitilir.

İleriye: SEDD (Score Entropy Discrete Diffusion) — token mutasyonu için skor-tabanlı framework. MDLM (Masked Diffusion Language Model) — Cornell + Google DeepMind, GPT’lere rakip kalite.

14.8 Discrete Diffusion = AR + Masked LM Genellemesi

Ava’nın en güzel teorik anı:

“Mathematically and theoretically, this framework of discrete masking diffusion gives us a generalization of a couple of closely related language modeling schemes.” — Ava, 21:50

1. Next-token prediction (AR LM, Ders 11): Sabit sıra, soldan sağa. Her adımda bir sonraki token.

2. Masked LM (BERT): Bütün dizi görünür, sabit bir oranda token maskeli; tek adımda hepsini tahmin et.

3. Discrete diffusion: Bütün olası maskelenme sırası ve bütün olası maskelenme oranı üzerinden öğren.

Şema Sıra Adım sayısı Genellik
AR (next-token) Sabit, sol→sağ N (her token bir adım) Düşük
Masked LM (BERT) Yok 1 Düşük
Discrete diffusion Tüm sıralar üzerinden T (ayarlanabilir) Yüksek

Bu bir önceki iki şemayı kapsayan çerçevedir.

İpucuBuilder Notu

Geriye: “Genelleme” mantığı Ders 6 universal approximation ruhuyla: daha esnek hipotez uzayı → potansiyel olarak daha iyi sonuç. Ders 11’deki Bayesian LM tezi (P(token|bağlam)) burada genelleşmiş: P(adım t-1 | adım t, mevcut bağlam).

İleriye: Any-order autoregressive modeller, iterative refinement decoding, parallel decoding.

14.9 EvoDiff: 50M Dizi + Evolutionary Alignments

“We developed a new generative model that we call EvoDiff that gives us a foundation to this approach. EvoDiff is a diffusion-based model, a generative model for functional protein design.” — Ava, 15:52

Veri ölçeği:

  • ~50 milyon benzersiz protein dizisi
  • Tüm yaşam ağacı boyunca (bakteri, arke, ökaryot)
  • Anotasyon yok — saf dizi verisi

Eğitim varyantları:

  1. EvoDiff-Seq: Tek dizi, discrete diffusion.
  2. EvoDiff-MSA: Çoklu Dizi Hizalaması ile evrimsel bağlam.

MSA neden faydalı? Doğa milyonlarca yıl önce her amino asit pozisyonunun hangi mutasyonlara izin verdiğini test etti. Aynı fonksiyonu yapan akraba proteinler aynı pozisyonlarda benzer kalıyor — evrimsel bilgi pozisyonel kısıtlar olarak modele giriyor.

“Importantly, all this learning is occurring entirely over sequence space, so that structure on the right is just an end visualization for our purposes. There’s no information about the structure that’s given to the model.” — Ava, 25:14

Bu nokta kritik: model sadece dizi görüyor. Yapı, post-hoc AlphaFold tahmininden geliyor. Buna rağmen ortaya çıkan diziler stabil katlanan yapılar üretiyor — yani dizi-yapı ilişkisi modele örtük olarak gömülmüş.

İpucuBuilder Notu

Geriye: Self-supervised, anotasyonsuz öğrenme — Ders 4 VAE’nin temel ruhu, Ders 6 diffusion’un denoising görevinin biyolojik versiyonu. MSA fikri bilgi-teorik: aynı fonksiyonu kodlayan farklı diziler eşdeğer örnekler; konum başına entropi, fonksiyonel önemi yansıtır.

İleriye: ESM Atlas (Meta, 700M protein), UniProt, UniRef50/90 eğitim veritabanları. ESM-3 sequence + structure + function üçlü modaliteyi birleştiriyor.

14.10 Evaluation — Üç Katmanlı

“It’s not so easy to just look at accuracy. You need to think about very carefully how you evaluate the quality of your generations.” — Ava, 25:50

fig, ax = plt.subplots(figsize=(11, 7))

layers = [
    {'name': 'C — LABORATUVAR FONKSİYONEL TEST', 'detail': 'In vitro: E. coli\'de express + yapısal kararlılık (CD, NMR)\nKalsiyum bağlama testi (gerçek protein)\nTek bilinçli doğrulama',
     'color': '#be185d', 'y': 5, 'width': 4},
    {'name': 'B — DAĞILIMSAL KAPSAMA', 'detail': 'Embedding uzayında üretilen örneklerin dağılımı\nDoğal proteinlerin dağılımı ile karşılaştırma\nMode collapse tespit',
     'color': '#f59e0b', 'y': 3.5, 'width': 6.5},
    {'name': 'A — BİREYSEL KALİTE (scTM)', 'detail': 'AlphaFold ile yapı tahmin → geri dizi tahmini\nSelf-consistency skoru (scTM/scRMSD)\nTekil örneğin "sound" olup olmadığı',
     'color': '#10b981', 'y': 2, 'width': 9},
]

for layer in layers:
    x_start = (10 - layer['width']) / 2
    ax.add_patch(patches.FancyBboxPatch((x_start, layer['y']), layer['width'], 1.4,
                                          boxstyle="round,pad=0.1",
                                          facecolor=layer['color'], alpha=0.4,
                                          edgecolor=layer['color'], linewidth=2.5))
    ax.text(5, layer['y']+1.05, layer['name'], ha='center', fontsize=11, weight='bold', color='#1e1b4b')
    ax.text(5, layer['y']+0.4, layer['detail'], ha='center', fontsize=9, color='#1e1b4b')

# Yön okları (alt → üst yükselen zorluk)
ax.annotate('artan\nzorluk &\ngüvenilirlik', xy=(0.5, 5.5), xytext=(0.5, 2.5),
            arrowprops=dict(arrowstyle='->', color='#7c3aed', lw=2),
            fontsize=10, color='#7c3aed', ha='center', va='center', weight='bold')

ax.text(5, 7, 'EvoDiff Evaluation Piramidi', ha='center', fontsize=14, weight='bold', color='#1e1b4b')
ax.text(5, 6.5, 'her katman farklı başarısızlık modunu yakalar — üçü birden geçen örnek = "production-ready"',
        ha='center', fontsize=10, style='italic', color='#475569')

ax.set_xlim(-0.5, 10.5)
ax.set_ylim(1.5, 7.5)
ax.set_aspect('equal')
ax.axis('off')
plt.tight_layout()
plt.show()
Şekil 14.4: EvoDiff 3-katmanlı evaluation piramidi. Her katman farklı bir başarısızlık modunu yakalar; üçü birden geçen örnek gerçek dünyada güvenle kullanılabilir.

Üç katman:

A — Bireysel kalite (scTM): Üretilen diziye AlphaFold ile yapı tahmin et → geri-dön (sequence design model) → orijinal dizi ile dön-dizi arasındaki benzerlik scTM/scRMSD (self-consistency).

B — Dağılımsal kapsama: Binlerce-onbinlerce örnek al. ESM ile özellik çıkar, 2D’ye projekte et. Doğal proteinlerin dağılımı ile karşılaştır.

Yöntem Dağılımsal kapsama Yorum
EvoDiff (discrete diffusion, sequence) Geniş, az boşluk Tüm-MSA çeşitliliği görüyor
Next-token prediction LM EvoDiff’e yakın, biraz üstün Klasik yaklaşım hâlâ güçlü
Masked 1-step LM Sınırlı, EvoDiff’in altında Tek-adım maskeleme zayıf
Structure-only (RFdiffusion) Çok yanlı (alpha-helix lehine) Yapı verisi 300K’dan az

C — Laboratuvar fonksiyonel testi: Ava’nın grubu EvoDiff’in tasarımlarından dördünü seçti, biyolojik sentez ile gerçek proteine dönüştürdü (E. coli’de express ederek), yapısal kararlılığı ölçtü. Sonuç: Dördü de stabil katlanıyor.

İpucuBuilder Notu

Geriye: Stat 110 hipotez testi (D33) + dağılım karşılaştırması (KL/Wasserstein), Ders 4 GAN ayırıcı ruhu, Ders 6 kalibrasyon — bir kez “doğru” yetmez, sürekli doğrulanmalı (Ders 12 Doug Blank “your evals” tezinin biyolojide somut hâli).

İleriye: Active learning + lab-loop; modelin en güvensiz olduğu örnekler lab’e gider, dönen veri ile model güncellenir. pLDDT (AlphaFold güvenlik skoru), scTM benchmark araçları.

14.11 Motif Inpainting — “Biyolojik Prompting”

EvoDiff’in en zarif uygulaması bu:

“By learning over all possible ways to mask step by step, EvoDiff can actually learn to look at a sequence where a small portion of those tokens are masked and infill or inpaint just those masked portions.” — Ava, 30:35

Mantık: discrete diffusion tüm olası maskeleme sıraları üzerinde eğitildiği için, bazı tokenleri sabit tut + gerisini tasarla yapısı doğal olarak destekleniyor.

fig, ax = plt.subplots(figsize=(13, 5))

# 20 pozisyonluk dizi
positions = list(range(20))
# Motif yeşil, etraf gri
motif_pos = [8, 9, 10, 11]
amino_acids_motif = ['D', 'K', 'N', 'D']  # EF-hand benzeri kalsiyum motifi
amino_acids_designed = ['M', 'A', 'R', 'L', 'V', 'I', 'P', 'G', 'D', 'K', 'N', 'D', 'F', 'S', 'T', 'Y', 'A', 'V', 'L', 'E']

# Input (üst): tüm [MASK] hariç motif
for i in positions:
    if i in motif_pos:
        ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 3.35, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 3), 0.8, 0.7, facecolor='#cbd5e1', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 3.35, '?', ha='center', va='center', fontsize=11, weight='bold', color='#475569')

ax.text(9, 4.2, 'INPUT: kalsiyum-bağlayıcı motif sabit (yeşil) + etraf [MASK]', ha='center', fontsize=11, weight='bold', color='#1e1b4b')

# Ok aşağı
ax.annotate('', xy=(9, 1.5), xytext=(9, 2.9), arrowprops=dict(arrowstyle='->', color='#be185d', lw=2.5))
ax.text(9.5, 2.2, 'EvoDiff\ninpaint', fontsize=11, color='#be185d', weight='bold')

# Output (alt): tüm dizi tasarlanmış
for i in positions:
    if i in motif_pos:
        ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#10b981', alpha=0.7, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')
    else:
        ax.add_patch(patches.Rectangle((i*0.9, 0.3), 0.8, 0.7, facecolor='#f59e0b', alpha=0.6, edgecolor='black'))
        ax.text(i*0.9 + 0.4, 0.65, amino_acids_designed[i], ha='center', va='center',
                fontsize=11, weight='bold', color='white')

ax.text(9, -0.5, 'OUTPUT: motif korundu (yeşil) + yeni etraf tasarlandı (turuncu) → fonksiyonel protein', ha='center', fontsize=11, weight='bold', color='#1e1b4b')

ax.set_xlim(-0.5, 19)
ax.set_ylim(-1.2, 5)
ax.set_aspect('equal')
ax.axis('off')
ax.set_title('Motif Inpainting — Biyolojik Prompting', fontsize=12, color='#1e1b4b', weight='bold')
plt.tight_layout()
plt.show()
Şekil 14.5: Motif inpainting şeması: bilinen fonksiyonel motif (yeşil, sabit) korunur; etrafındaki dizi (gri, [MASK]) EvoDiff tarafından tasarlanır. Sonuç: motifi içeren yepyeni protein.

Somut örnek: Hedef: kalsiyum bağlayan bir protein tasarla.

  1. Bilinen kalsiyum-bağlayıcı motif al (örn. EF-hand motifi).
  2. Bu motifin amino asit dizisini fix olarak ver.
  3. Geri kalan dizinin etrafını EvoDiff’e tasarlattır.
  4. Sonuç: motifi içeren, yepyeni bir protein dizisi.

Lab doğrulaması:

  • Tasarlanan protein E. coli’de eksprese edildi.
  • Kalsiyum bağlama kapasitesi ölçüldü.
  • Sonuç: doğal versiyon kadar iyi olmasa da açık ölçülebilir bağlama → fonksiyonel başarı.

“We do see that this method actually yields functional proteins… this is just a first step. These are first experiments to get at a sense of the capabilities.” — Ava, 32:40

Ava mütevazi konuşuyor. “İlk adım”, “tam fonksiyon değil ama ölçülebilir fonksiyon”. Bilim böyle ilerliyor.

İpucuBuilder Notu

Geriye: Ders 4 conditional generation (CVAE class-conditional), Ders 11 prompt engineering — “biyolojik prompt” doğrudan paralel: model’i belirli bir biyolojik fonksiyona doğru yönlendir.

İleriye: RFdiffusion motif scaffolding (yapı uzayında aynı görev), Chroma (Generate Biomedicines), Baker lab Nobel 2024 protein design.

14.12 Büyük Resim: Protein → Hücre → Doku → Hasta

Ava EvoDiff’i tek bir araştırma çıktısı olarak değil, hiyerarşinin bir basamağı olarak konumlandırıyor:

Şekil 14.6: Closed-loop bilim: protein → hücre → doku → hasta → klinik. Her basamakta AI tahminleri + lab deneyleri + ölçümler + model güncellemesi döngüsü.

Closed-loop vizyon: Klinik veri toplama → AI eğitimi → AI tahminleri → Lab deneyleri → Ölçümler → Model güncellemesi → Daha iyi öneriler → Klinik etki.

Bu döngü tek seferlik proje değil; sürekli işleyen bir sistem.

İpucuBuilder Notu

Geriye: Hiyerarşi mantığı Ders 3 CNN feature hierarchy ile aynı yapısal sezgi. Closed-loop, Ders 5 RL biyomedikal versiyonu.

İleriye: Microsoft AI4Health, Insitro, Recursion Pharmaceuticals, Genentech computational biology, Isomorphic Labs (DeepMind spinout).

14.13 Soru-Cevap Özeti

Soru 1 (Diffusion vs alternatif): “Diffusion model dışında protein tasarımı için ne var?” Ava: Ana alternatif yapı-tabanlı yaklaşımlar (RFdiffusion). Fark veri ölçeğinde: 50M+ dizi var ama sadece ~300K deneyimsel olarak çözümlenmiş yapı. İki yaklaşım tamamlayıcı.

Soru 2 (Yapısal bias): “Yapısal yöntem neden alpha-helix yanlı?” Ava: Mevcut çözümlenmiş yapılar kompakt, küresel, suda-çözünür proteinleri içeriyor — laboratuvar X-ray kristalografi koşullarına uyanlar. Bu sınıf alpha-helix ağırlıklı.

Soru 3 (Sequence + structure): “EvoDiff yapı bilgisini de alabilir mi?” Ava: Aktif araştırma. Üç yaklaşım: (a) ortak temsil uzayı, (b) sequence model + yapı embedding injection, (c) iki-yönlü cross-attention.

Soru 4 (Protease substrate): “Hedef bir proteaza karşı kesim substratı tasarlayabilir misiniz?” Ava: Üzerinde çalıştıkları aktif iş. EvoDiff ile değil — iki etkileşen molekül; EvoDiff tek-molekül için.

Soru 5 (Gradient’siz kalite): “Kaliteyi nasıl öğretiyorsunuz?” Ava: Self-supervised. Doğal proteinlerin dağılımı zaten stabilite + fonksiyon kalıplarını içeriyor. Model bütün dağılımı öğrenirse, ürettiği örnekler kısıtları örtük olarak içeriyor.

Soru 6 (Dual-use güvenlik): “EvoDiff’in çift-kullanım potansiyeli?” Ava: Çok ciddi mesele. Microsoft chief scientific officer Eric Horvitz biyogüvenlik için aktif advokasi yapıyor. Bu, Ders 12’deki Doug Blank’in “your AI your responsibility” tezinin biyoloji versiyonu.

14.14 Kursun Bütününe Köprü

Bu son ders kursun tüm ana derslerine değiyor:

Önceki ders Bu derste nerede
Ders 1 cross-entropy Her pozisyonda 20-kategorili multinomial kayıp
Ders 2 Sequence Modeling Protein = dizi/dil; attention protein LM temeli
Ders 3 CNN Hiyerarşik temsil; dijital patoloji görüntü
Ders 4 Generative Diffusion’un VAE/GAN’la ortak DNA’sı
Ders 5 RL Lab-loop = agent-environment closed loop
Ders 6 New Frontiers Diffusion temel + kalibrasyon
Ders 7 Üç Yasa MLOps + eval pipeline (3-katmanlı eval)
Ders 8 AI for Science Bishop emülatör + MatterGen → EvoDiff protein versiyonu
Ders 9 Paralel Eğitim 50M dizi için FSDP, MoE
Ders 10 Post-training Motif-conditional = instruction tuning
Ders 11 Agents AR vs masked LM vs discrete diffusion
Ders 12 Hipokrat Dual-use sorumluluk (Horvitz biyogüvenlik)

14.15 Bu Dersin Özeti

  1. Protein = dil: 20-harfli amino asit alfabesi; sequence → structure → function 3-katmanlı hiyerarşi.
  2. Discrete diffusion: Token maskeleme (veya mutasyon) ile kademeli bozma + ters yön sinir ağıyla öğrenilir.
  3. AR + masked LM genellemesi: Discrete diffusion tüm olası sıralar + tüm olası oranlar üzerinden öğrenir.
  4. EvoDiff: 50M tek dizi + MSA evrimsel sinyal. Self-supervised, anotasyonsuz.
  5. Self-supervised kalite: Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir.
  6. 3-katmanlı evaluation: bireysel scTM + dağılımsal kapsama + laboratuvar fonksiyonel test.
  7. Motif inpainting: Bilinen motifi sabitle, etrafını tasarlat — “biyolojik prompting”.
  8. Lab loop: AI tahmini → sentez → ölçüm → model güncellemesi (sürekli iyileşme).
  9. Hiyerarşi: Molekül → hücre → doku → hasta → klinik (her basamakta closed-loop).
  10. Dual-use sorumluluk: Açık-kaynak yayınlamadan önce risk değerlendirmesi (Horvitz white-paper’ları).

İyi kurulan generative model + dikkatli evaluation + lab loop = gerçek dünyada çalışan tasarım sistemi. Bu derste EvoDiff’le protein cephesinde gösterildi; aynı çerçeve materyal, ilaç, ECU tuning, finans gibi başka tüm domain’lere taşınabilir.

14.16 Kontrol Soruları

Cevap: Üç açıdan:

  1. Sıra: Next-token sabit sola-sağa; discrete diffusion tüm olası sıralar üzerinden öğrenir.

  2. Adım sayısı: Next-token N token için N adım; diffusion ayarlanabilir T adım (T < N bile mümkün — paralel decoding).

  3. Bağlam: Next-token sadece sol-bağlam (causal mask); diffusion tüm dizide görünür olmayan tokenler hariç hepsini görür — çift yönlü.

Bu üç özellik birleşince diffusion AR ve masked-LM’i özel durum olarak içeriyor.

Cevap: Her katman farklı bir başarısızlık modunu yakalar.

  • Bireysel kalite (scTM): Tekil örneğin “sound” olup olmadığı. Yüksek scTM ama dar dağılım = mode collapse.
  • Dağılımsal kapsama: Model çeşitli mi? Düşük çeşitlilik = pratik kullanım kısıtlı. Yüksek çeşitlilik + düşük kalite = işe yaramaz.
  • Laboratuvar test: Tek bilinçli doğrulama. Model in-silico mükemmel ama in-vitro stabil değil olabilir.

Üç katmanın hepsi geçen örnek = gerçek dünyada güvenle kullanılabilir. Bishop’un Ders 8’deki emülatör + lab döngüsünün protein versiyonu.

Cevap: İki kaynak:

  1. Evrimsel kısıtlar dizide kodlu. Bir protein milyonlarca yıl önce stabil katlanıyorsa, mutasyonların çoğu istenmeyen ve elimine olmuş. Geriye kalan diziler doğal seleksiyon süzgecinden geçmiş.

  2. MSA + evrim modu. Akraba dizileri MSA olarak modele beslemek konum bazında kısıtları açığa çıkarıyor (konum X her zaman hidrofobik, konum Y her zaman pozitif yüklü).

Sonuç: model “yapıyı bilmiyor” ama yapıya götüren istatistiksel imzaları biliyor. Ders 11’deki Bayesian dil modeli felsefesi: P(yapı | dizi) örtük olarak P(dizi)’de saklı.

Cevap: Prensip olarak evet. Gerekenler:

  1. Veri: Çok sayıda OEM + tuned binary (10K+, ideal 100K+).
  2. Tokenization: Binary’i byte-block veya fonksiyonel birim (map blokları) cinsinden token’la.
  3. Discrete diffusion: Token maskele/değiştir → tasarla.
  4. Motif inpainting: Bilinen safety-critical map’leri sabitle; geri kalan kalibrasyonu tasarla. Bu, ECU safety rules ile birlikte fizik-kısıt destekli üretim demek.
  5. Lab loop: Dyno’da fonksiyonel test → ölçüm → modele dön.

Engeller: veri ölçeği, düzenleme (yüksek-risk Katman 2 — Ders 12), dual-use. Yine de araştırma sorusu olarak doğrudan paralel.

14.17 Egzersizler

Egzersiz 1 — Protein LM mini fine-tune. HuggingFace’tan ESM-2 (8M veya 35M) modelini indir. Bir küçük amino asit dizisi listesinin (örn. 100 enzim) üzerinde masked language modeling ile fine-tune et. Maskeleme oranı %15 (BERT-vari). Eğitim öncesi ve sonrası modelin maskeli pozisyonları tahmin başarısını ölç.

Egzersiz 2 — Discrete diffusion manuel. 10-token bir dummy “dizi” oluştur (vocabulary 5). Forward süreci elle simüle et: T=10 adımda kademeli olarak [MASK] olasılığını \(\beta_t = t/T\) ile artır. Sonunda diziyi pure-mask hâline getir. Her adımda dizinin görünür-token oranını çiz.

Egzersiz 3 — 3-katmanlı eval taslağı. Bir generative model çıktısı (LLM veya başka bir generator) için 3-katmanlı evaluation pipeline taslağı yaz: (A) bireysel kalite metric’i (LLM-judge veya scTM benzeri), (B) dağılımsal kapsama (embedding + PCA + KL divergence), (C) fonksiyonel test (gerçek kullanım senaryosu). Hangi metriğin hangi başarısızlık modunu yakaladığını açıkla.

Egzersiz 4 — Motif inpainting prompt’u. Bir LLM’e (Claude/GPT) “biyolojik prompting” tarzı bir prompt yaz: “Aşağıdaki Python fonksiyonun gövdesini doldur, signature ve return type sabit kalsın:” def calculate_risk(reward: float, hazard: float) -> dict:. Modelin sabit kısma dokunmadan doğru tasarımı tamamlayıp tamamlamadığını incele. Discrete diffusion motif inpainting paralelini kendi cümlenle yaz.

Egzersiz 5 — Bu kursun kendi sentezi. 13 dersi bir sayfada özetle: her ders için (a) bir cümle ana fikir, (b) bir kavram kursun matematik temellerine (Calculus, Linear Algebra, Stat 110) bağlı, (c) bir kavram ileriye (modern uygulamaya) bağlı. Bu egzersiz, kursu bir yıl sonra hatırlamanın en iyi yolu.

14.18 Kurs Kapanışı — Sonraki Adım Önerileri

Bu, kursun son sayfası. Aynı zamanda builder yolculuğunun bir aşaması.

Ava dersi şu cümle ile bitiriyor:

“It’s tremendous thanks to the fantastic colleagues that I’m privileged to work with every day… it’s an awesome team of not only great scientists but really really great people that I’m lucky to be a part of.” — Ava, 54:31

Ve seyirciden son cümle: “Excellent. Thank you, Ava. Let’s all thank Ava one more time.”

Bu Türkçe öğretim seti de aynı yerden kapanıyor. 13 ders, perceptron’dan protein tasarımına; gradient descent’ten discrete diffusion’a; calculus zincir kuralından evrimsel diziler arası MSA’ya. Builder ekseni boyunca her kavram ya öncesindeki üç matematik kursuna (Linear Algebra, Stat 110, Calculus) geriye ya da production/research alanına ileriye bağlandı.

Kurs yasal/etik kapanışı (Ders 12) ile bilim kapanışı (bu ders) yan yana koyuyor — bu rastlantı değil. Yapay zekâyı yaşam bilimlerine getirmek hem büyük fırsat hem büyük sorumluluk. Bu ikisini ayrı düşünmeyen bir mühendis kuşağı yetiştirmek 6.S191’in açık hedefi.

UyarıKurs Kapanışı — Bir Sonraki Adım

Buradan ileri yol haritası:

  1. Mevcut araştırma alanlarından birinde derinleşme — LLM, agents, AI4Science, biomedical, motorsport ECU, finans. Bir konuya 6 ay+ odaklan; yüzeyel 10 konu değil.
  2. Bir araştırma grubunda en az 6 ay süren bir proje — akademi (lab) veya endüstri (R&D). Tek başına okumak yetmez; birlikte üreten topluluk gerekir.
  3. Hibrit beceriler (ML + alan uzmanlığı) — bu kursun en güçlü mesajı. Sadece ML mühendisi değil, “X domain’ini ML ile yapabilen mühendis” ol. Ava’nın wet-lab + computational hibrit kimliği bunun canlı örneği.
  4. Sürekli evaluation + sürekli sorumluluk — Doug Blank’ın “your AI your responsibility” ve Ava’nın “AI + lab loop” çerçevesi birlikte. Her commit’te eval, her sürümde risk değerlendirmesi.
  5. Kursun matematik temelleri üzerinden geri dönüş — Calculus, Linear Algebra, Stat 110 üçlüsünü tekrar tekrar oku. Bishop’un Ders 8’deki sözüyle “deeper, more permanent foundation.”

Bir sonraki ders yok. Bu kursun sonu. Ama yolun başı.

14.19 Anahtar Kavramlar (Cheat Sheet)

# Kavram Pratik özet
1 Protein temel veri 20-harfli amino asit alfabesi; uzunluk 50-500 tipik
2 3-katman hiyerarşi Sequence → Structure → Function
3 Discrete diffusion Token maskeleme (veya mutasyon) + ters yön sinir ağı
4 Maskeleme süreci \(q(x_t \| x_{t-1})\): pozisyonlar \(\beta_t\) olasılıkla [MASK]
5 Genelleme Discrete diffusion = AR + masked-LM’in supersedi
6 EvoDiff data 50M tek dizi + MSA evrimsel sinyal
7 Self-supervised kalite Doğal dağılım stabilite/fonksiyon kısıtlarını örtük içerir
8 3-katmanlı evaluation scTM + dağılımsal + lab fonksiyonel
9 Motif inpainting Bilinen motif sabit, etraf tasarlanır — “biyolojik prompting”
10 Dual-use güvenlik Açık-kaynaktan önce risk değerlendirmesi (Horvitz biosafety)

14.20 ML Builder Bağlantıları — Kursun Tüm Köprüleri

İpucuKursun bütüne köprü tablosu
Kavram Geriye (matematik) İleriye (uygulama)
Discrete diffusion Markov chain (Stat 110 D31), kategorik dağılım (D20) SEDD, MDLM, parallel decoding
Cross-entropy Bernoulli MLE (Stat 110 D8, D17) Tüm classification + LM loss
Self-supervised Olasılık dağılımının kendisi sınıflandırıcı Foundation models, ESM, GPT
Closed-loop lab Calculus iteratif sabit nokta (Banach contraction) Active learning, lab automation
MSA hizalama 18.06 matrix sütun temsili ESM-3, AlphaFold 3 multi-mer
Hiyerarşik temsil 18.06 eigendecomposition; CNN feature hierarchy Multi-modal protein, dijital patoloji
Risk × ödül Stat 110 koşullu beklenti (D25) EU AI Act, NIST AI RMF
Generative eval Stat 110 hipotez testi (D33), KL/Wasserstein Promptfoo, LLM-judge, lab metric’leri

Tek cümleyle, kursun tamamı: Perceptron + gradient descent + backprop (Ders 1) ile başlayan derin öğrenme, sequence + CNN + generative + RL (Ders 2-5) ile araç kazandı; new frontiers + MLOps + AI4Science + paralel eğitim (Ders 6-9) ile production’a çıktı; post-training + agents + etik (Ders 10-12) ile sorumlu modern AI oldu; ve yaşam bilimleri (Ders 13) ile bilim için araç hâline geldi. Her adım bir öncekine ve sonrakine bağlı.

Bu kurstan tek bir şey alıp gideceksen: AI bir bilimsel + mühendislik artefaktıdır. Matematik temelleri (linear algebra, calculus, probability) derin olduğu için tekniği takip edebilir; evaluation + lab loop + etik sorumluluk sürekli olduğu için ürünleri ayakta tutabilirsin. Ava’nın 50 milyon protein dizisi üzerinde öğrenen modeli + dört lab-doğrulanmış tasarımı, hem büyüklüğün hem dikkatin gücünü gösteriyor: yeterli ölçek + doğru framework + sabırlı doğrulama = gerçek bilim.

Thank you, Ava. Ve thank you, Alex/Ava/Bishop/Doug/Maxime/Erica — kursun konuşmacıları. Buradan ileri yol, builder’a kalmış.