Session de travail · Paratopy · Lab in silico

Du plan d'action au
premier livrable mesuré

Une session : atoms scientifiques posés → corpus structural curaté → pipeline reproductible → première shortlist ranked de 22 cibles onco+viral à partir des 10 783 entrées PDB du SAbDab.

Date · 2026-05-24 Repo · fifth-brain Scope · projects/paratopy/corpus/ Pilotage · Etienne + Nathan + IA Source data · SAbDab 2026-05-22
7
Décisions verrouillées
stratégie + pilotage + repo
11
Fichiers livrés
ADR + 3 modules + YAML + tests + CLI
22
Cibles évaluées
12 onco · 10 viral
2 772
PDB matchés
dont 469 à ≤ 2,5 Å
3
Hypothèses cadrées
H1 V(D)J · H2 invariants · H3 FM

01Décisions verrouillées ce soir

Sept arbitrages, pris en chaîne, qui transforment « on a posé les atoms scientifiques » en « voici une plateforme exécutable et un premier résultat ranked ».

Stratégie corpus
Profond, pas large
10–20 cibles curatées avec multiples Ab par cible. Signal > volume. Comparabilité Ab-vs-Ab sur le même épitope = pré-requis H2.
Périmètre
Oncologie + Viral
Onco = pertinence clinique et co-cristaux nombreux. Viral (SARS-CoV-2, HIV Env) = diversité paratope extrême contre épitope quasi-fixe.
Backbone data
SAbDab (OPIG)
~10k PDB Ab-Ag curatés, H/L appariées, CDR uniformisé Chothia/IMGT/Kabat, MAJ hebdo, CC-BY 4.0. Pas de PDB brut à filtrer.
Architecture vectorielle
3 niveaux en parallèle
Séquentiel (ESM-2 MIT) · Structural (ESM-IF1 ou Foldseek 3Di) · Interface (graphe de contacts). On teste lequel capte quoi avant de choisir.
Stockage v0
Plat (parquet + npz)
Supabase/pgvector différé à Phase 4 du fifth-brain. Aujourd'hui = vitesse, demain = scale.
Emplacement code
projects/paratopy/corpus/
Convention CLAUDE.md du repo : data projet vit dans projects/, pas en racine ni dans pipelines/ (réservé aux atomes de connaissance).
Process review
Nathan + Etienne, pas Samuel
Tant qu'on reste dans projects/paratopy/ et qu'on respecte les conventions repo, pas de coordination Samuel nécessaire. Initiative.

02Architecture du labo in silico

Du PDB brut à la première hypothèse testable, le flow en 5 étapes. v0 livre l'étape 1. v1 ouvrira les étapes 2-3 (structures 3D + embeddings) ; v2 lance les tests d'hypothèses.

Étape 1 · v0 ✓ livrée
Sélection des cibles
SAbDab summary TSV → matching par alias → ranking par disponibilité/qualité → shortlist parquet.
Étape 2 · v1
Extraction structurale
PDB IDs sélectionnés → coordonnées 3D → CDR Chothia+IMGT → résidus interface (<4,5 Å) → déduplication Ab par CDR-H3.
Étape 3 · v1
Embeddings 3 niveaux
ESM-2 (séquentiel) · ESM-IF1 ou Foldseek 3Di (structural) · graphe de contacts (interface). Sortie : 3 espaces vectoriels par Ab.
Étape 4 · v2 — H1
V(D)J + hypermutation
La diversité paratope observée vs même épitope est-elle reproductible par recombinaison génétique simulée seule, ou faut-il un mécanisme additionnel ?
Étape 4 · v2 — H2
Invariants paratopy
Existe-t-il des invariants géométriques épitope→paratope qu'aucune méthode SOTA ne capte ? Le signal contrarien.
Étape 4 · v2 — H3
Registry FM
Evo2 vs ESM-2 vs ESM-IF1 — lequel sépare le mieux les Ab co-liants d'un même épitope ? Test direct du choix « candidat, pas capital ».

03Pipeline livré · arborescence

Onze fichiers, ~400 lignes de code, aucune nouvelle dépendance ajoutée (pandas, pyarrow, pyyaml, rich déjà présents). Stdlib urllib.request pour le HTTP.

projects/paratopy/
├── decisions/
│   └── 2026-05-24-in-silico-lab-corpus.md   # ADR project-local
└── corpus/                                   # nouveau sous-package
    ├── README.md                          # usage + curation guide Nathan
    ├── .gitignore                         # data/ ignoré, YAML versionné
    ├── __init__.py
    ├── run_shortlist.py                   # CLI end-to-end
    ├── sabdab/
    │   ├── __init__.py
    │   ├── download.py                    # cache par Last-Modified
    │   ├── parse.py                       # TSV → DataFrame typé
    │   └── rank.py                        # ranking par cible
    ├── targets/
    │   └── onco_viral.yaml                # 22 cibles · API humaine
    ├── tests/
    │   ├── __init__.py
    │   └── test_parse.py                  # smoke tests parsing + ranking + exclude_aliases
    └── data/                                # gitignored, régénérable
        ├── raw/sabdab/
        │   └── sabdab_summary_all_2026-05-22.tsv  # 7,74 MB · 21 142 rows
        └── processed/
            ├── shortlist_2026-05-24.parquet
            └── shortlist_2026-05-24.csv

04Premier ranking · shortlist 2026-05-24

Sortie réelle du pipeline. Tri par n_pdb_high_res (résolution ≤ 2,5 Å) décroissant. Tier 1 = ≥ 100 high-res · Tier 2 = 5–25 high-res · Tier 3 = 1–4 · Anomalie = 0 ou suspect.

Tier Cible Cat n_pdb ≤ 2,5 Å res min res med variants Ag Couverture temporelle
T1SARS-CoV-2 Spikeviral1 3162051,033,20452006 → 2026
T1HIV Env (gp120/gp160/gp41)viral5791411,433,402341994 → 2026
T1Influenza HAviral298261,713,20471992 → 2026
T2Influenza NAviral83191,902,8081992 → 2026
T2PD-1 / PDCD1onco26141,402,6012016 → 2025
T2Flavivirus E (Dengue/Zika)viral46111,403,49172007 → 2026
T2RSV Fviral7691,953,23202009 → 2026
T2HCV E2viral3191,902,7732013 → 2026
T2CTLA-4 / CD152onco1671,572,5612015 → 2025
T2PD-L1 / CD274onco1371,602,6612016 → 2024
T2CD38onco1371,532,3022011 → 2025
T2EGFR / ERBB1onco2251,802,6532001 → 2025
T3HER2 / ERBB2onco2231,693,0942002 → 2026
T3Mesothelin / MSLNonco721,522,6022012 → 2026
T3BCMA / TNFRSF17onco521,902,7012015 → 2026
T3CD20 / MS4A1onco1011,602,9622007 → 2024
T3EBV gp350viral512,203,1412024 → 2026
T3HBV surface antigenviral411,783,0932017 → 2025
T3TROP2 / TACSTD2onco111,561,5612025 → 2025
!HER3 / ERBB3onco902,503,2012010 → 2025
!Ebola GPviral504,124,3062016 → 2019
!CD19onco303,003,0012017 → 2023

05Anomalies & open items pour Nathan

Quatre points qui demandent un arbitrage scientifique avant de figer le corpus v1. Modifications faites directement dans targets/onco_viral.yaml.

CD19 — aliases trop stricts Faux négatif probable
3 PDB seulement, tous à 3,0 Å. CD19 est une cible CAR-T très étudiée — l'alias "b-lymphocyte antigen cd19" ne capture pas toutes les annotations SAbDab. À étendre (ex. "cd19 molecule", "isoform") puis re-vérifier sur le TSV brut.
HER3 — 0 structure high-res Limite physique
9 PDB matchés mais résolution min = 2,50 Å. Cible légitime mais cristallographiquement difficile. Décision Nathan : garder dans la shortlist v1 (avec un seuil de résolution adapté) ou parquer en attente de cryo-EM haute-résolution.
Ebola GP — cryo-EM uniquement Méthode-restriction
5 PDB, résolution min 4,12 Å. Glycoprotéine membranaire trimérique, structures uniquement en cryo-EM basse résolution avant 2020. Pertinence biologique (paratopes anti-filovirus), mais inutilisable pour H2 si on garde le filtre < 2,5 Å. Soit on relâche le filtre pour les viraux membranaires, soit on retire.
TROP2 — 1 PDB unique Cible émergente
Une seule structure, déposée fin 2025. Sacituzumab-govitecan et autres ADC TROP2 prennent de l'ampleur cliniquement — cible à surveiller mais pas exploitable pour comparabilité Ab-vs-Ab aujourd'hui. À reconsidérer dans 6-12 mois.

06Trois hypothèses à mettre sous test

Ce corpus existe pour répondre à ces questions — pas pour exister. Chaque hypothèse a un protocole opérationnel défini dans l'ADR.

H1 · BIO-MIMÉTIQUE
La diversité des paratopes observée contre un même épitope est-elle reproductible par V(D)J simulée + hypermutation somatique, ou exige-t-elle un mécanisme additionnel ?
Op. Échantillonner N=20 paratopes par cible Tier 1, comparer la distribution CDR à des ensembles synthétiques V(D)J générés.
H2 · ALIGNEMENT PARATOPY
Existe-t-il des invariants géométriques épitope→paratope que les méthodes SOTA ne captent pas ? Le signal contrarien recherché.
Op. Clustering des paratopes par épitope sur HIV Env (234 variants) et SARS-CoV-2 (45 variants). Chercher des manifolds basse dimension invisibles aux baselines d'embedding.
H3 · REGISTRY FM
Parmi Evo2 / ESM-2 / ESM-IF1, lequel sépare le mieux les anticorps co-liants d'un même épitope ?
Op. Évaluation type triplet-loss sur retrieval. Re-test direct du choix « Evo2 = candidat dans registry, pas capital » (ADR-FM-01).

07Prochaines étapes naturelles

Immédiat · 1-2 jours
Loop Nathan
Lui transmettre le CSV + les 4 anomalies. Il édite onco_viral.yaml (aliases CD19, décision HER3/Ebola, ajouts éventuels). Une PR, une review, merge.
Court terme · 1-2 semaines
v1 du corpus
Download structures PDB des cibles Tier 1+2 retenues. Déduplication Ab par CDR-H3+germline. Annotation Chothia complète. Premier sous-corpus exploitable.
Moyen terme · 1 mois
Premier embedding
ESM-2 séquentiel sur le Tier 1 (SARS-CoV-2 + HIV Env). Le terrain HIV avec ses 234 variants est l'épreuve la plus dure et la plus informative pour H2.