Wissenschaftliche Veröffentlichung
Hallo zusammen!
Unser Artikel mit dem Titel "Dataset’s chemical diversity limits the generalizability of machine learning predictions" (übersetzt etwa: Die chemische Vielfalt eines Datensatzes limitiert die Verallgemeinerbarkeit der Vorhersagen maschinellen Lernens) wurde angenommen und veröffentlicht! Er ist frei zugänglich:
https://jcheminf.biomedcentral.com/a...K395ODe941Y3_0
Falls ihr Fragen dazu habt, kontaktiert uns gern über das Projektforum (unter dieser Nachricht).
Grüße!
Benoit
Hier ist eine Nachricht von Thomas Cauchy über unsere Forschung:
ich bin der Chemiker hinter diesem Projekt. Die von Benoit Da Mota genannte Veröffentlichung wurde verfasst, als wir das BOINC-Projekt gestartet haben. Aber ich kann einige Sätze aus dem Artikel herausziehen, um zu zeigen, was wir uns dabei denken:
"Zusammenfassung: Der Datensatz QM9 ist zum Goldstandard für Vorhersagen verschiedener chemischer Eigenschaften durch maschinelles Lernen (ML) geworden. QM9 basiert auf GDB, was eine kombinatorische Untersuchung des chemischen Parameterraums ist. Kürzlich wurden ML-Vorhersagen für Moleküle mit einer Genauigkeit veröffentlicht, die mit Berechnungen auf Basis der Dichtefunktionaltheorie vergleichbar ist. Solche ML-Modelle müssen anhand echter Daten getestet und verallgemeinert werden. In diesem Artikel wird PC9 vorgestellt, ein neuer, zu QM9 äquivalenter Datensatz (nur mit H, C, N, O und F und bis zu 9 "schweren" Atomen) des PubChemQC-Projektes. Eine statistische Untersuchung von Bindungslängen und chemischen Funktionen zeigt, dass dieser neue Datensatz eine größere chemische Vielfalt umfasst. Die Methoden Kernel Ridge Regression, Elastic Net und das neurale Netzwerk von SchNet wurden auf beide Datensätze angewandt. Die Genauigkeit der Energievorhersage ist insgesamt höher für den QM9-Datensatz. Ein mittels PC9 trainiertes Modell zeigt jedoch eine bessere Fähigkeit, die Energien des anderen Datensatzes vorherzusagen."
Der Datensatz QM9 enthält etwa 130000 kleine Moleküle, wohingegen unser Datensatz PC9 119000 enthält (aber aus einer anderen Art von Berechnungen stammt). Das Problem ist, dass die vollständigen Ergebnisse von QM9 nicht frei verfügbar sind. Sie haben einige Ergebnisse der teuren quantenmechanischen Berechnungen extrahiert und das Protokoll weggeworfen. Wir sind nicht mit PC9 zufrieden, da sich einfach zeigen ließ, dass eine größere chemische Vielfalt benötigt wird.
Derzeit zielt das BOINC-Projekt darauf, die interessanten Moleküle aus QM9 und PC9 dieses Mal mit gleichartigen Berechnungen neu zu berechnen. Alle Ergebnisse werden in der QuChemPedIA unter https://quchempedia.univ-angers.fr verfügbar sein, wenn diese Plattform etwas robuster ist (Anfang 2020), auf Augenhöhe mit unserem Programm zur Qualitätskontrolle.
Wir sind noch nicht völlig zufrieden mit NWChem. Mit dem gleichen BOINC-Projekt verwenden Benoit Da Mota und ich das proprietäre Gaussian, welches effizienter ist. Aber NWChem ist quelloffen...
Wir haben dank eurer Hilfe etwa 130000 von 200000 berechnet!
Wir hoffen, der Gemeinschaft im Dezember vorschlagen zu können, neue Moleküle zu berechnen, die vielleicht gar nicht existieren und nicht stabil sind, um dem maschinellen Lernen zu helfen, besser zu verallgemeinern. Diese neuen Moleküle werden auch durch maschinelles Lernen erzeugt. Es würde zu lange dauern, das jetzt hier zu erklären.
Falls ihr Fragen habt...
Mit freundlichem Gruß,
Thomas
Originaltext:
