Présentation de MolGPS — Un réseau neuronal en graphe (GNN) fondamental pour la prédiction des propriétés moléculaires

Sur la scalabilité des GNN pour les graphes moléculaires

La mise à l’échelle des modèles d’apprentissage profond a été au cœur des récentes révolutions de modélisation du langage et de génération d’images. Les praticiens ont observé une relation étroite entre la taille du modèle, la taille de l’ensemble de données et les performances. Cependant, les architectures fondées sur la structure, telles que les Graph Neural Networks (GNN), n’ont pas encore démontré les bénéfices à l’échelle, principalement en raison de l’efficacité moindre des opérations clairsemées, des besoins importants en données et du manque de clarté quant à l’efficacité des différentes architectures.

Nous abordons cet inconvénient des GNN en étudiant leur comportement de mise à l’échelle. Plus précisément, nous analysons des réseaux à passage de messages, des transformateurs de graphes et des architectures hybrides sur la plus grande collection publique de graphes moléculaires 2D. Pour la première fois, nous observons que les GNN bénéficient considérablement de l’augmentation de la largeur, du nombre de molécules, du nombre d’étiquettes et de la diversité des ensembles de données de pré‑entraînement.

Nous sommes ravis de présenter MolGPS, un modèle de 3B paramètres pour diverses tâches de prédiction de propriétés moléculaires. Nous espérons que ce travail ouvrira la voie à une ère où des GNN fondamentaux stimuleront la découverte de médicaments pharmaceutiques. Non seulement les performances du modèle évoluent en fonction des paramètres, mais il bénéficie également énormément de l'intégration de données phénomiques de haut niveau dans le tout.

Détails du modèle et performances

MolGPS a été entraîné sur le mélange d’ensemble de données LargeMix , constitué de 5 millions de molécules regroupées en 5 tâches différentes, chacune comportant plusieurs étiquettes. LargeMix inclut notamment des ensembles de données comme L1000_VCAP et L1000_MCF7 (transcriptomique), PCBA_1328 (bioessais), PCQM4M_G25 et PCGM4M_N4 (simulations DFT).

Nous avons également ajouté un ensemble de données de classification utilisant un sous‑ensemble des données phénomiques de Recursion. Cet ensemble de données a été créé à l’aide d’un auto-encodeur masqué pré‑entraîné regroupant les images phénomiques en 6 000 classes différentes, qui sont utilisées ensuite pour des classifications binaires.

MolGPS a d’abord été pré-entraîné à l’aide d'une stratégie courante d'apprentissage multitâche supervisée puis a été finement ajusté (ou sondé) pour diverses tâches de prédiction de propriétés moléculaires afin d’évaluer ses performances. Nous avons évalué les performances de MolGPS sur les bancs d'essai de Therapeutics Data Commons (TDC), MoleculeNet et Polaris.

Therapeutics Data Commons (TDC) et MoleculeNet

Notre étude se concentre sur 22 tâches ADMET (absorption, distribution, métabolisme, excrétion et toxicité) disponibles dans TDC. Ce benchmark existe depuis des années avec des soumissions continues de divers groupes, incluant à la fois des modèles d'apprentissage profond et d'apprentissage automatique traditionnel en tête du benchmark, avec un total de 8 modèles se partageant les premières positions sur l’ensemble des 22 tâches. Simplement en mettant à l'échelle notre modèle, nous avons constaté que MolGPS surpasse SOTA dans 12 tâches sur 22.

Nous étudions également 4 jeux de MoleculeNet fréquemment utilisés dans des études similaires : BACE (qui évalue la liaison d’un groupe d’inhibiteurs ciblant la β‑sécrétase), BBBP (la pénétration de la barrière hémato‑encéphalique, qui évalue si une molécule peut pénétrer dans le système nerveux central), Clintox (qui est pertinent pour la toxicité des composés moléculaires), et Sider (la ressource sur les effets secondaires, qui contient des informations sur les effets indésirables des médicaments dans une base de données de médicaments commercialisés). Nous avons constaté que MolGPS surpasse SOTA (tous les modèles auto-supervisés ou les modèles auto-supervisés pré-entraînés basés sur le quantum) sur les 4 tâches.

Polaris

Bien que TDC et MoleculeNet soient des références couramment utilisées pour l'évaluation de la découverte de médicaments open-source, nous notons qu’ils souffrent de biais de collecte et de traitement des données sur des molécules différentes. Ces limitations ont déjà été décrites lors de conversations au sein de la communauté.

Polaris est une nouvelle collection de benchmarks et d’ensemble de données élaborés au moyen d'un protocole d'évaluation normalisé, développé par un consortium industriel de sociétés de biotechnologie et pharmaceutiques. Nous avons étudié les performances de MolGPS sur 12 tâches ADMET et de prédiction de liaison et avons constaté que MolGPS surpasse SOTA sur 11/12 tâches.

Expériences de mise à l'échelle

Dans les expériences suivantes, nous examinons les performances de MolGPS en augmentant sa largeur de sorte que le nombre de paramètres passe de 1 million à 3 milliards. Pour évaluer correctement les bénéfices de l’échelle, nous mesurons les performances du modèle sur 22 tâches TDC en aval. Ici, la recherche d’hyper-paramètres est effectuée avec 10 millions de paramètres, et l’augmentation de largeur est réalisée en zero‑shot à l’aide de la technique muTransfer.

Nous observons également que les GNN profitent fortement de l’augmentation de la largeur du modèle, et que les gains sont cohérents et linéaires par rapport au logarithme du nombre de paramètres. Il n’y a aucun ralentissement visible de la courbe de passage à l’échelle, ce qui laisse penser que nous pouvons continuer à améliorer les performances avec des modèles de plus en plus grands, à l’instar des LLM.

Par ailleurs, MolGPS améliore nettement les performances par rapport aux baselines TDC — il s’agit des meilleures performances par tâche depuis l’introduction de TDC en 2021. Sur l’axe des ordonnées, une valeur de 0 représente la moyenne de toutes les soumissions au benchmark TDC. Comparé au dernier SOTA sur TDC, notre ensemble de modèles dépasse la courbe du meilleur modèle par tâche, ce qui signifie qu’il est généralement préférable d’utiliser MolGPS plutôt que d’essayer la trentaine de méthodes du benchmark TDC.

Nous notons aussi que le modèle atteint une limite lorsqu’il lorsqu'il est mis à l'échelle sur des données publiques uniquement, mais que l’ajout de données phénomiques privées repousse considérablement les limites de l’échelle et des performances.
Nous rapportons ci‑dessus la « performance normalisée », représentant la moyenne du z‑score sur les 22 tâches du TDC. Le z‑score sur la base des performances du modèle par rapport au classement d'une tâche, ajusté en fonction de la polarité de la métrique de la tâche, c'est-à-dire multiplié par -1 si « plus petit est meilleur ».

Molécules et langage

Dans le contexte des LLM, nos résultats de mise à l’échelle peuvent sembler surprenants puisque nos modèles ne sont entraînés que sur quelques millions de points de données (molécules), tandis que les LLM s’entraînent généralement sur des ensemble contenant des billions de jetons (tokens). Pour mieux comprendre la hausse de performance et l’écart de taille des ensembles de données, il est utile d’établir quelques analogies entre molécules et langage.

Dans notre contexte, les molécules sont analogues aux phrases dans le traitement du langage, tandis que les atomes et liaisons sont analogues aux jetons. De plus, la tâche est supervisée et certaines molécules possèdent des milliers d’étiquettes associées issues de données expérimentales. Cela permet aux intégrations moléculaires apprises d'être beaucoup plus riches que celles dérivées de la simple récupération d'un jeton manquant.

Vous souhaitez en savoir plus sur MolGPS ?

Contactez notre équipe.

Nous contacter