Présentation de MolGPS — Un réseau neuronal en graphe (GNN) fondamental pour la prédiction des propriétés moléculaires
Lire le journalSur la scalabilité des GNN pour les graphes moléculaires
La mise à l’échelle des modèles d’apprentissage profond a été au cœur des récentes révolutions de modélisation du langage et de génération d’images. Les praticiens ont observé une relation étroite entre la taille du modèle, la taille de l’ensemble de données et les performances. Cependant, les architectures fondées sur la structure, telles que les Graph Neural Networks (GNN), n’ont pas encore démontré les bénéfices à l’échelle, principalement en raison de l’efficacité moindre des opérations clairsemées, des besoins importants en données et du manque de clarté quant à l’efficacité des différentes architectures.
Nous abordons cet inconvénient des GNN en étudiant leur comportement de mise à l’échelle. Plus précisément, nous analysons des réseaux à passage de messages, des transformateurs de graphes et des architectures hybrides sur la plus grande collection publique de graphes moléculaires 2D. Pour la première fois, nous observons que les GNN bénéficient considérablement de l’augmentation de la largeur, du nombre de molécules, du nombre d’étiquettes et de la diversité des ensembles de données de pré‑entraînement.
Nous sommes ravis de présenter MolGPS, un modèle de 3B paramètres pour diverses tâches de prédiction de propriétés moléculaires. Nous espérons que ce travail ouvrira la voie à une ère où des GNN fondamentaux stimuleront la découverte de médicaments pharmaceutiques. Non seulement les performances du modèle évoluent en fonction des paramètres, mais il bénéficie également énormément de l'intégration de données phénomiques de haut niveau dans le tout.
Expériences de mise à l'échelle
Dans les expériences suivantes, nous examinons les performances de MolGPS en augmentant sa largeur de sorte que le nombre de paramètres passe de 1 million à 3 milliards. Pour évaluer correctement les bénéfices de l’échelle, nous mesurons les performances du modèle sur 22 tâches TDC en aval. Ici, la recherche d’hyper-paramètres est effectuée avec 10 millions de paramètres, et l’augmentation de largeur est réalisée en zero‑shot à l’aide de la technique muTransfer.
Nous observons également que les GNN profitent fortement de l’augmentation de la largeur du modèle, et que les gains sont cohérents et linéaires par rapport au logarithme du nombre de paramètres. Il n’y a aucun ralentissement visible de la courbe de passage à l’échelle, ce qui laisse penser que nous pouvons continuer à améliorer les performances avec des modèles de plus en plus grands, à l’instar des LLM.
Par ailleurs, MolGPS améliore nettement les performances par rapport aux baselines TDC — il s’agit des meilleures performances par tâche depuis l’introduction de TDC en 2021. Sur l’axe des ordonnées, une valeur de 0 représente la moyenne de toutes les soumissions au benchmark TDC. Comparé au dernier SOTA sur TDC, notre ensemble de modèles dépasse la courbe du meilleur modèle par tâche, ce qui signifie qu’il est généralement préférable d’utiliser MolGPS plutôt que d’essayer la trentaine de méthodes du benchmark TDC.
Nous notons aussi que le modèle atteint une limite lorsqu’il lorsqu'il est mis à l'échelle sur des données publiques uniquement, mais que l’ajout de données phénomiques privées repousse considérablement les limites de l’échelle et des performances.
Nous rapportons ci‑dessus la « performance normalisée », représentant la moyenne du z‑score sur les 22 tâches du TDC. Le z‑score sur la base des performances du modèle par rapport au classement d'une tâche, ajusté en fonction de la polarité de la métrique de la tâche, c'est-à-dire multiplié par -1 si « plus petit est meilleur ».
Molécules et langage
Dans le contexte des LLM, nos résultats de mise à l’échelle peuvent sembler surprenants puisque nos modèles ne sont entraînés que sur quelques millions de points de données (molécules), tandis que les LLM s’entraînent généralement sur des ensemble contenant des billions de jetons (tokens). Pour mieux comprendre la hausse de performance et l’écart de taille des ensembles de données, il est utile d’établir quelques analogies entre molécules et langage.
Dans notre contexte, les molécules sont analogues aux phrases dans le traitement du langage, tandis que les atomes et liaisons sont analogues aux jetons. De plus, la tâche est supervisée et certaines molécules possèdent des milliers d’étiquettes associées issues de données expérimentales. Cela permet aux intégrations moléculaires apprises d'être beaucoup plus riches que celles dérivées de la simple récupération d'un jeton manquant.


