Présentation de OpenQDC – L'hub open-source de données quantiques prêtes pour le ML
Explorez aujourd'huiIntroduction
Nous avons organisé et consolidé plus de 40 ensembles de données de mécanique quantique (QM), couvrant 1,5 milliard de géométries sur 70 espèces d’atomes et plus de 250 méthodes QM, dans un hub unique et accessible appelé OpenQDC. C’est open source et les ensembles de données sont accessibles via la bibliothèque Python OpenQDC. Installez‑le avec pip (pip install OpenQDC) pour commencer à télécharger et utiliser divers ensemble de données QM en une seule ligne de code.
Github page: https://github.com/valence-labs/openQDC
Website: https://www.openqdc.io/

Défis liés aux ensembles de données MQ
Développer des MLIP (potentiels interatomiques pilotés par apprentissage automatique) robustes nécessite d’énormes quantités de données de mécanique quantique (MQ). Malheureusement, il y a un manque d’ensemble de données standardisées et prêts à l’emploi (« plug‑and‑play ») pouvant être utilisés pour entraîner et tester de nouveaux algorithmes de ML, ce qui entrave le prototypage de nouvelles recherches dans ce domaine.
Les ensembles de données QM existants couvrent diverses méthodes et différents espaces chimiques. Ils sont également éparpillés dans plusieurs dépôts (p. ex. QCArchive, ColabFit, NablaDFT, GEOM) avec des métadonnées manquantes (p. ex. niveau de théorie et unités), ajoutant une couche de complexité supplémentaire à leur utilisation. Cela entrave non seulement l’adoption et l’utilité des données, mais aussi les opportunités de collaboration entre physiciens, chimistes, experts en ML et spécialistes d’autres disciplines, limitant les avancées de la recherche en ML.
La bibliothèque OpenQDC
La bibliothèque Python OpenQDC facilite le travail avec tous les ensembles de données quantiques du hub. C’est un paquetage visant à fournir un moyen simple et efficace pour télécharger, charger et exploiter divers ensembles de données. Vous pouvez télécharger des ensembles de données avec une seule ligne de code.
- Une API (Application Programming Interfaces / Interfaces de programmation d'applications) pythonique simple: La simplicité de l’interface Python garantit une facilité d’utilisation, ce qui la rend parfaite pour un prototypage rapide.
- Prêt pour le ML: Vous ne manipulez que des objets torch.Tensor, jax.Array ou numpy.Array.
- Prêt pour le quantique: Les méthodes quantiques utilisées par les ensemble de données sont vérifiées et standardisées pour fournir des valeurs complémentaires, des normalisations utiles et différentes statistiques.
- Standardisé: Les ensembles de données sont fournis dans des formats standards et performants avec des métadonnées annotées telles que des unités et des étiquettes.
- La performance compte: Lecture et écriture dans plusieurs formats (memmap, zarr, xyz, etc.).
- Données: Ayez accès à plus de 1,5 milliard de points de données.
- Open source et extensible: OpenQDC et tous ses fichiers et ensembles de données sont open source; et vous pouvez ajouter votre propre ensemble de données et le partager avec la communauté en quelques minutes seulement.
Getting Started
Installez OpenQDC avec pip ou conda:
Python
pip install openqdc
or
conda install openqdc -c conda-forge
Vous êtes maintenant prêt·e à utiliser tous nos ensembles de données QM avec CLI prêt à l’emploi.
Unset
openqdc download SpiceV2
Ou en utilisant l’API Python.
Python
from openqdc import SpiceV2
dataset=SpiceV2()
Ci-dessous un aperçu illustrant la facilité d'utilisation d’OpenQDC et de la manière dont il s'interface avec torch et torch_geometric.
dataset=MACEOFF(energy_unit=
dataloader=DataLoader(dataset, batch_size=32)
. . .
Étant “framework agnostic”, OpenQDC peut s’utiliser facilement avec torch_geometric, dans ce cas, nous pouvons utiliser la fonction radius_graph de torch_cluster pour créer un graphe.
def
edge_index = radius_graph(x.positions, 5)
return Data(edge_index=edge_index, **x)
ds=SpiceV2(array_format=”torch”, distance_unit=”ang”, transform=to_pyg_data)
loader = DataLoader(ds, batch_size=32, shuffle=True)
. . .
Nous espérons qu’OpenQDC puisse devenir une ressource importante pour la communauté afin de faire progresser la recherche sur les MLIP vers un avenir où l’on entraînera des potentiels universels dotés d’une meilleure généralisabilité et d’une plus grande robustesse.
N’hésitez pas à partager vos commentaires ou à contacter l’équipe Valence Labs sur GitHub, X, LinkedInou via le portail de Valence !!