Une session : atoms scientifiques posés → corpus structural curaté → pipeline reproductible → première shortlist ranked
de 22 cibles onco+viral à partir des 10 783 entrées PDB du SAbDab.
Date · 2026-05-24Repo · fifth-brainScope · projects/paratopy/corpus/Pilotage · Etienne + Nathan + IASource data · SAbDab 2026-05-22
7
Décisions verrouillées
stratégie + pilotage + repo
11
Fichiers livrés
ADR + 3 modules + YAML + tests + CLI
22
Cibles évaluées
12 onco · 10 viral
2 772
PDB matchés
dont 469 à ≤ 2,5 Å
3
Hypothèses cadrées
H1 V(D)J · H2 invariants · H3 FM
01Décisions verrouillées ce soir
Sept arbitrages, pris en chaîne, qui transforment « on a posé les atoms scientifiques »
en « voici une plateforme exécutable et un premier résultat ranked ».
Stratégie corpus
Profond, pas large
10–20 cibles curatées avec multiples Ab par cible. Signal > volume. Comparabilité Ab-vs-Ab sur le même épitope = pré-requis H2.
Périmètre
Oncologie + Viral
Onco = pertinence clinique et co-cristaux nombreux. Viral (SARS-CoV-2, HIV Env) = diversité paratope extrême contre épitope quasi-fixe.
Backbone data
SAbDab (OPIG)
~10k PDB Ab-Ag curatés, H/L appariées, CDR uniformisé Chothia/IMGT/Kabat, MAJ hebdo, CC-BY 4.0. Pas de PDB brut à filtrer.
Architecture vectorielle
3 niveaux en parallèle
Séquentiel (ESM-2 MIT) · Structural (ESM-IF1 ou Foldseek 3Di) · Interface (graphe de contacts). On teste lequel capte quoi avant de choisir.
Stockage v0
Plat (parquet + npz)
Supabase/pgvector différé à Phase 4 du fifth-brain. Aujourd'hui = vitesse, demain = scale.
Emplacement code
projects/paratopy/corpus/
Convention CLAUDE.md du repo : data projet vit dans projects/, pas en racine ni dans pipelines/ (réservé aux atomes de connaissance).
Process review
Nathan + Etienne, pas Samuel
Tant qu'on reste dans projects/paratopy/ et qu'on respecte les conventions repo, pas de coordination Samuel nécessaire. Initiative.
02Architecture du labo in silico
Du PDB brut à la première hypothèse testable, le flow en 5 étapes. v0 livre l'étape 1.
v1 ouvrira les étapes 2-3 (structures 3D + embeddings) ; v2 lance les tests d'hypothèses.
Étape 1 · v0 ✓ livrée
Sélection des cibles
SAbDab summary TSV → matching par alias → ranking par disponibilité/qualité → shortlist parquet.
Étape 2 · v1
Extraction structurale
PDB IDs sélectionnés → coordonnées 3D → CDR Chothia+IMGT → résidus interface (<4,5 Å) → déduplication Ab par CDR-H3.
Étape 3 · v1
Embeddings 3 niveaux
ESM-2 (séquentiel) · ESM-IF1 ou Foldseek 3Di (structural) · graphe de contacts (interface). Sortie : 3 espaces vectoriels par Ab.
Étape 4 · v2 — H1
V(D)J + hypermutation
La diversité paratope observée vs même épitope est-elle reproductible par recombinaison génétique simulée seule, ou faut-il un mécanisme additionnel ?
Étape 4 · v2 — H2
Invariants paratopy
Existe-t-il des invariants géométriques épitope→paratope qu'aucune méthode SOTA ne capte ? Le signal contrarien.
Étape 4 · v2 — H3
Registry FM
Evo2 vs ESM-2 vs ESM-IF1 — lequel sépare le mieux les Ab co-liants d'un même épitope ? Test direct du choix « candidat, pas capital ».
03Pipeline livré · arborescence
Onze fichiers, ~400 lignes de code, aucune nouvelle dépendance ajoutée
(pandas, pyarrow, pyyaml, rich déjà présents). Stdlib urllib.request pour le HTTP.
Sortie réelle du pipeline. Tri par n_pdb_high_res (résolution ≤ 2,5 Å) décroissant.
Tier 1 = ≥ 100 high-res · Tier 2 = 5–25 high-res · Tier 3 = 1–4 · Anomalie = 0 ou suspect.
Tier
Cible
Cat
n_pdb
≤ 2,5 Å
res min
res med
variants Ag
Couverture temporelle
T1
SARS-CoV-2 Spike
viral
1 316
205
1,03
3,20
45
2006 → 2026
T1
HIV Env (gp120/gp160/gp41)
viral
579
141
1,43
3,40
234
1994 → 2026
T1
Influenza HA
viral
298
26
1,71
3,20
47
1992 → 2026
T2
Influenza NA
viral
83
19
1,90
2,80
8
1992 → 2026
T2
PD-1 / PDCD1
onco
26
14
1,40
2,60
1
2016 → 2025
T2
Flavivirus E (Dengue/Zika)
viral
46
11
1,40
3,49
17
2007 → 2026
T2
RSV F
viral
76
9
1,95
3,23
20
2009 → 2026
T2
HCV E2
viral
31
9
1,90
2,77
3
2013 → 2026
T2
CTLA-4 / CD152
onco
16
7
1,57
2,56
1
2015 → 2025
T2
PD-L1 / CD274
onco
13
7
1,60
2,66
1
2016 → 2024
T2
CD38
onco
13
7
1,53
2,30
2
2011 → 2025
T2
EGFR / ERBB1
onco
22
5
1,80
2,65
3
2001 → 2025
T3
HER2 / ERBB2
onco
22
3
1,69
3,09
4
2002 → 2026
T3
Mesothelin / MSLN
onco
7
2
1,52
2,60
2
2012 → 2026
T3
BCMA / TNFRSF17
onco
5
2
1,90
2,70
1
2015 → 2026
T3
CD20 / MS4A1
onco
10
1
1,60
2,96
2
2007 → 2024
T3
EBV gp350
viral
5
1
2,20
3,14
1
2024 → 2026
T3
HBV surface antigen
viral
4
1
1,78
3,09
3
2017 → 2025
T3
TROP2 / TACSTD2
onco
1
1
1,56
1,56
1
2025 → 2025
!
HER3 / ERBB3
onco
9
0
2,50
3,20
1
2010 → 2025
!
Ebola GP
viral
5
0
4,12
4,30
6
2016 → 2019
!
CD19
onco
3
0
3,00
3,00
1
2017 → 2023
05Anomalies & open items pour Nathan
Quatre points qui demandent un arbitrage scientifique avant de figer le corpus v1.
Modifications faites directement dans targets/onco_viral.yaml.
CD19 — aliases trop strictsFaux négatif probable
3 PDB seulement, tous à 3,0 Å. CD19 est une cible CAR-T très étudiée — l'alias "b-lymphocyte antigen cd19" ne capture pas toutes les annotations SAbDab. À étendre (ex. "cd19 molecule", "isoform") puis re-vérifier sur le TSV brut.
HER3 — 0 structure high-resLimite physique
9 PDB matchés mais résolution min = 2,50 Å. Cible légitime mais cristallographiquement difficile. Décision Nathan : garder dans la shortlist v1 (avec un seuil de résolution adapté) ou parquer en attente de cryo-EM haute-résolution.
Ebola GP — cryo-EM uniquementMéthode-restriction
5 PDB, résolution min 4,12 Å. Glycoprotéine membranaire trimérique, structures uniquement en cryo-EM basse résolution avant 2020. Pertinence biologique (paratopes anti-filovirus), mais inutilisable pour H2 si on garde le filtre < 2,5 Å. Soit on relâche le filtre pour les viraux membranaires, soit on retire.
TROP2 — 1 PDB uniqueCible émergente
Une seule structure, déposée fin 2025. Sacituzumab-govitecan et autres ADC TROP2 prennent de l'ampleur cliniquement — cible à surveiller mais pas exploitable pour comparabilité Ab-vs-Ab aujourd'hui. À reconsidérer dans 6-12 mois.
06Trois hypothèses à mettre sous test
Ce corpus existe pour répondre à ces questions — pas pour exister.
Chaque hypothèse a un protocole opérationnel défini dans l'ADR.
H1 · BIO-MIMÉTIQUE
La diversité des paratopes observée contre un même épitope est-elle reproductible par V(D)J simulée + hypermutation somatique, ou exige-t-elle un mécanisme additionnel ?
Op. Échantillonner N=20 paratopes par cible Tier 1, comparer la distribution CDR à des ensembles synthétiques V(D)J générés.
H2 · ALIGNEMENT PARATOPY
Existe-t-il des invariants géométriques épitope→paratope que les méthodes SOTA ne captent pas ? Le signal contrarien recherché.
Op. Clustering des paratopes par épitope sur HIV Env (234 variants) et SARS-CoV-2 (45 variants). Chercher des manifolds basse dimension invisibles aux baselines d'embedding.
H3 · REGISTRY FM
Parmi Evo2 / ESM-2 / ESM-IF1, lequel sépare le mieux les anticorps co-liants d'un même épitope ?
Op. Évaluation type triplet-loss sur retrieval. Re-test direct du choix « Evo2 = candidat dans registry, pas capital » (ADR-FM-01).
07Prochaines étapes naturelles
Immédiat · 1-2 jours
Loop Nathan
Lui transmettre le CSV + les 4 anomalies. Il édite onco_viral.yaml (aliases CD19, décision HER3/Ebola, ajouts éventuels). Une PR, une review, merge.
Court terme · 1-2 semaines
v1 du corpus
Download structures PDB des cibles Tier 1+2 retenues. Déduplication Ab par CDR-H3+germline. Annotation Chothia complète. Premier sous-corpus exploitable.
Moyen terme · 1 mois
Premier embedding
ESM-2 séquentiel sur le Tier 1 (SARS-CoV-2 + HIV Env). Le terrain HIV avec ses 234 variants est l'épreuve la plus dure et la plus informative pour H2.