PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : QuChemPedIA@home



taurec
08.11.2019, 19:15
Wie von Roadranner schon im "Neue Projekte"-Thread angekündigt:
QuChemPedIA@home
Läuft derzeit bei mir auf dem i7-4790-k auf 4 Threads, Laufzeiten kann ich noch keine klare Linie erkennen, Checkpoints auch nicht.
Gibt die Möglichkeit, MAX CPUs und MAX WUs zu begrenzen oder einzustellen, aber das funktioniert anscheinend noch nicht so toll. Gerade neuen Rechner hinzugefügt mit anderem Profil, rechnet trotzdem 1 WU nur mir 1 Thread.
Mal beobachten. Bin da auch noch am Testen.
Laufzeiten bisher zwischen 6800 und 40000s, Credits werden entsprechend den Laufzeiten vergeben, so wie es bei mir da so aussieht: ca. 38 Credits pro Stunde auf dem o.g. PC.

Wir liegen derzeit auf Rang 18, Tendenz steigend :)

pschoefer
17.11.2019, 14:47
Ein Fachartikel wurde im Journal of Cheminformatics veröffentlicht und motiviert die aktuell von QuChemPedIA@home durchgeführten Berechnungen:

Wissenschaftliche Veröffentlichung
Hallo zusammen!

Unser Artikel mit dem Titel "Dataset’s chemical diversity limits the generalizability of machine learning predictions" (übersetzt etwa: Die chemische Vielfalt eines Datensatzes limitiert die Verallgemeinerbarkeit der Vorhersagen maschinellen Lernens) wurde angenommen und veröffentlicht! Er ist frei zugänglich:
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-019-0391-2?fbclid=IwAR0HrALNqT0HRaCUtBMeBcchJxISsiypO2TUJF9 zV5EEGK395ODe941Y3_0

Falls ihr Fragen dazu habt, kontaktiert uns gern über das Projektforum (unter dieser Nachricht (https://quchempedia.univ-angers.fr/athome/forum_thread.php?id=36)).

Grüße!
Benoit

Hier ist eine Nachricht von Thomas Cauchy über unsere Forschung:

Hallo,

ich bin der Chemiker hinter diesem Projekt. Die von Benoit Da Mota genannte Veröffentlichung wurde verfasst, als wir das BOINC-Projekt gestartet haben. Aber ich kann einige Sätze aus dem Artikel herausziehen, um zu zeigen, was wir uns dabei denken:

"Zusammenfassung: Der Datensatz QM9 ist zum Goldstandard für Vorhersagen verschiedener chemischer Eigenschaften durch maschinelles Lernen (ML) geworden. QM9 basiert auf GDB, was eine kombinatorische Untersuchung des chemischen Parameterraums ist. Kürzlich wurden ML-Vorhersagen für Moleküle mit einer Genauigkeit veröffentlicht, die mit Berechnungen auf Basis der Dichtefunktionaltheorie vergleichbar ist. Solche ML-Modelle müssen anhand echter Daten getestet und verallgemeinert werden. In diesem Artikel wird PC9 vorgestellt, ein neuer, zu QM9 äquivalenter Datensatz (nur mit H, C, N, O und F und bis zu 9 "schweren" Atomen) des PubChemQC-Projektes. Eine statistische Untersuchung von Bindungslängen und chemischen Funktionen zeigt, dass dieser neue Datensatz eine größere chemische Vielfalt umfasst. Die Methoden Kernel Ridge Regression, Elastic Net und das neurale Netzwerk von SchNet wurden auf beide Datensätze angewandt. Die Genauigkeit der Energievorhersage ist insgesamt höher für den QM9-Datensatz. Ein mittels PC9 trainiertes Modell zeigt jedoch eine bessere Fähigkeit, die Energien des anderen Datensatzes vorherzusagen."

Der Datensatz QM9 enthält etwa 130000 kleine Moleküle, wohingegen unser Datensatz PC9 119000 enthält (aber aus einer anderen Art von Berechnungen stammt). Das Problem ist, dass die vollständigen Ergebnisse von QM9 nicht frei verfügbar sind. Sie haben einige Ergebnisse der teuren quantenmechanischen Berechnungen extrahiert und das Protokoll weggeworfen. Wir sind nicht mit PC9 zufrieden, da sich einfach zeigen ließ, dass eine größere chemische Vielfalt benötigt wird.

Derzeit zielt das BOINC-Projekt darauf, die interessanten Moleküle aus QM9 und PC9 dieses Mal mit gleichartigen Berechnungen neu zu berechnen. Alle Ergebnisse werden in der QuChemPedIA unter https://quchempedia.univ-angers.fr verfügbar sein, wenn diese Plattform etwas robuster ist (Anfang 2020), auf Augenhöhe mit unserem Programm zur Qualitätskontrolle.
Wir sind noch nicht völlig zufrieden mit NWChem. Mit dem gleichen BOINC-Projekt verwenden Benoit Da Mota und ich das proprietäre Gaussian, welches effizienter ist. Aber NWChem ist quelloffen...
Wir haben dank eurer Hilfe etwa 130000 von 200000 berechnet!
Wir hoffen, der Gemeinschaft im Dezember vorschlagen zu können, neue Moleküle zu berechnen, die vielleicht gar nicht existieren und nicht stabil sind, um dem maschinellen Lernen zu helfen, besser zu verallgemeinern. Diese neuen Moleküle werden auch durch maschinelles Lernen erzeugt. Es würde zu lange dauern, das jetzt hier zu erklären.

Falls ihr Fragen habt...
Mit freundlichem Gruß,
Thomas
13.11.2019, 20:33:58 MEZ

Originaltext:

Scientific publication
Hello everybody!

Our article titled "Dataset’s chemical diversity limits the generalizability of machine learning predictions" was accepted and published ! It is an Open Access article :
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-019-0391-2?fbclid=IwAR0HrALNqT0HRaCUtBMeBcchJxISsiypO2TUJF9 zV5EEGK395ODe941Y3_0

If you have any question, feel free to contact us on the forum of the project (under this message).

Cheers !
Benoit

Here is a message from Thomas Cauchy about our reseach :

Hello,

I am the chemist of this project. The publication mentioned by Benoit Da Mota was written when we launch the boinc project. But I can extract some sentences of this article to show what we have in mind :

"Abstract: The QM9 dataset has become the golden standard for Machine Learning (ML) predictions of various chemical properties. QM9 is based on the GDB, which is a combinatorial exploration of the chemical space. ML molecular predictions have been recently published with an accuracy on par with Density Functional Theory calculations. Such ML models need to be tested and generalized on real data. PC9, a new QM9 equivalent dataset (only H, C, N, O and F and up to 9 "heavy" atoms) of the PubChemQC project is presented in thisarticle. A statistical study of bonding distances and chemical functions shows that this new dataset encompasses more chemical diversity. Kernel Ridge Regression, Elastic Net and the Neural Network model provided by SchNet have been used on both datasets. The overall accuracy in energy prediction is higher for the QM9 subset. However, a model trained on PC9 shows a stronger ability to predict energies of the other dataset."

The QM9 dataset has around 130k small molecules, when our PC9 has 119k (but was extracted from another type of calculations). The problem is that the full results of the QM9 are not openly available. They have extracted some results of the costly quantum mechanics calculations and trashed the log. We are not satisfied by PC9 that was a simple demonstration that more diversity is needed.

For the moment the boinc project is aiming at recalculating the interesting molecules of QM9 and PC9 with the same level of calculation this time. All the results will be available at the quchempedia document base https://quchempedia.univ-angers.fr when this platform will be a little bit more robust (beginning 2020) in par with our quality control tool as written by my colleague.
We are not fully happy with NWChem yet. With the same boinc project Benoit Da Mota and myself, are using Gaussian (proprietary) which is much efficient. But Nwchem is open source...
We have calculated roughly 130 k over 200 k thanks to your help!
For December we hope to propose to the community to calculate new molecules that maybe don't even exist and are not stable in order to help machine learning tool to generalize better. Those new molecules will be generated by a machine learning procedure. Too long to explain here right now.

If you have any question...
Kindly
Thomas
13 Nov 2019, 19:33:58 UTC

XSmeagolX
17.11.2019, 18:25
Ich habe das Projekt soeben in den SG-Stats integriert.

https://stats.seti-germany.de/teamstats/project.php?projectid=QuChemPedIA

lugu
19.11.2019, 11:02
Bei dem Papertitel dachte ich zuerst auch nur: Ach was, sag bloß! :D

Aber, dass durch Methoden des maschinellen Lernens mittlerweile Ergebnisse herauskommen, die auf DFT-Niveau liegen, ist schon stark. Vielleicht überwinde ich mich doch mal und richte auf einem Rechner eine Virtuelle Box ein.

taurec
23.11.2019, 13:42
Inzwischen liegen wir auf #5, demnächst #4.
Zu #3 bräuchte es dann schon einen etwas längeren Atem oder mehr Beteiligung vom Team :cool:

Die 100k habe ich inzwischen durch, HJL folgt bald....

JayPi
23.11.2019, 15:57
Angefangen habe ich auch schon, jetzt muss ich aber erst bei 2 anderen Projekten die Stände glatt ziehen, dann werde ich hier auch eine Million bereitstellen.

[SG] steini
24.11.2019, 19:36
BoincStats sagt: Account creation disabled

taurec
24.11.2019, 19:47
Invitation code : 3VwMu3-eTCg32

https://quchempedia.univ-angers.fr/athome/about.php
geht's damit?

Urs
24.11.2019, 22:08
Projekt grade nicht erreichbar.

Korrektur. Anmeldung direkt auf der Projektseite geht, in den BM laden nicht.:undecided:

K2. Nu hab ichs. Die Laufzeiten scheinen ja durchauz zu schwanken?! Hab mal bei JayPi gespickt.

Urs
27.11.2019, 06:28
Welche Laufzeiten sind denn normal?
Ich habe da 2 Aufgaben die laufen bereits über 2 Tage und sind bei 55%.
Insgesamt hab ich 3 Aufgaben und nu noch ne Frage da ich keine Erffahrung mit VB habe. Im BM hat jede Aufgabe einen thread aber wenn ich die VB aufrufe steht da das nur 1 Kern freigegeben ist. Ist das so normal oder muss ich da was umstellen?
Die anderen Projekte die gleichzeitig ohne VB laufen scheinen normale Laufzeiten zu haben.

taurec
27.11.2019, 16:29
Hallo Urs, meine Rechner sind jetzt sichtbar, kannst ein wenig stöbern.
Laufzeiten total unterschiedlich, gibt WUs (t1) belegen einen Thread und (t2) belegen zwei Threads.
So ganz komme ich noch nicht hinter das System in den Einstellungen.

Urs
27.11.2019, 17:01
Danke taurec! Du hast ausschliesslicch Linux laufen. Mal sehen was die VB bei mir bringt. Lass die einfach mal fertig laufen.
Wenn die wus 5 Tage laufen und dann 100 creds bringen macht das keinen Sinn. Mal sehen.:x)

JayPi
30.11.2019, 07:11
Kaum steige ich hier ein ... ist das Projekt leer :D

taurec
02.12.2019, 19:34
Es gibt wieder Arbeit ;)

JayPi
10.12.2019, 17:10
Mir ist aufgefallen, dass unter Windows VirtualBox ingesetzt wird. Die RAM-Auslastung ist da mit 2GB je VM doch gewaltig und bringt meine Rechner an die (RAM-)Grenzen.
Unter Linux sieht die Welt ganz anders aus: Hier laufen die WUs native - ohne VM. Daher kann ich jetzt unter Linux 16 WUs ohne Probleme parallel laufen lassen.

taurec
10.12.2019, 20:27
Ich habe hier mit Linux pro WU ca. 1,2 bis 1,6 GB benötigten RAM laut WU-Eigenschaften.

Edit: WU 0d9..........................

JayPi
10.12.2019, 21:28
Ich habe hier mit Linux pro WU ca. 1,2 bis 1,6 GB benötigten RAM laut WU-Eigenschaften.

Edit: WU 0d9..........................

Auf 2 Linux-Rechner habe ich mal nachgeschaut: Mit jeweils 16 Treads werden incl. Betriebssystem keine 3 GB RAM belegt.

JayPi
11.12.2019, 13:57
Nachdem ich die WU-Beschränkungen für meine Linux Rechner aufgehoben habe und einen weiteren kleinen Linux-Rechner ohne VirtualBox hinzugefügt habe, konnte ich den Output noch um rund 33% steigern.

JayPi
15.12.2019, 14:13
Nachdem ich meine Million voll habe gibt es eine Kurze Zusammenfassung meiner Erfahrungen in diesem Projekt:

Linux:
Linuxrechner sind klar im Vorteil. Die WUs benötigen keine VM, belegen lediglich ca. 150 MB RAM pro Stück und sie laufen relativ zuverlässig. Selten musste ich hier eingreifen.

Windows:
Windowsrechner sind die Verlierer: Eine einzelne WU benötigt VirtualBox und belegt dadei 2 GB RAM. Hier muss die Anzahl der parallel laufenden WUs beschränkt werden, da meistens nicht genügend RAM im Rechner steckt. Dafür gibt es in den Projekteinstellungen (https://quchempedia.univ-angers.fr/athome/prefs.php?subset=project) eine elegante Möglichkeit ("Maximale Anzahl Aufgaben" und "Maximale Anzahl CPUs"). Die Zuverlässigkeit der WUs ist nicht so gut, öfters bleibt eine WU bei knapp 100% stecken oder verbraucht keine CPU Leistung mehr. Diese habe ich abgebrochen. Auch stellte ich häufig fest, dass eine WU "verschoben" ist und nicht mehr läuft. Hier hilft Neustart von BOINC oder Abbruch der WU. Beim Abbruch übernimmt die neu geladene WU die verwaiste, gestoppte VM und arbeitet mit dieser weiter.

Laufzeit:
Gewöhnlich benötigen die WUs 30-60 Minuten. Credits liegen im üblichen Rahmen, es gibt 30-40 je Stunde. Öfters laufen die WUs auch länger, bis zu mehreren Stunden. Auch hier werden die Credits korrekt vergeben - sofern die WUs nicht stecken bleiben. 2-3x am Tag habe ich alle Rechner geprüft und stecken gebliebene, "verschobene" oder zu lang laufende WUs abgebrochen. Dieses Projekt benötigt ständige Kontrolle.

Projektabschluss:
Wenn man nicht mehr für dieses Projekt weiter rechnen will müssen Windows-Rechner aufgeräumt werden:
Nach dem Abmelden des Projektes können VMs bei VirtualBox noch als "nicht zugreifbar" gelistet sein. Diese müssen gelöscht werden. Desweiteren sollte man in den slots-Verzeichnissen mögliche Überreste löschen. Zuletzt, oder besser zuerst im Taskmanager prüfen, ob noch vboxHeadless-Prozesse laufen. Wenn keine VMs mehr laufen sollten, dann müssen diese auch manuell abgebrochen werden.

HJL
17.12.2019, 15:22
Anmerkung noch zu JayPi's Zusammenfassung:

ich sehe keinen wirklichen Grund da Windows-WUs zu rechnen, wenn schon VirtualBox,
dann kann man ja gleich ein Linux-System aufsetzten und BOINC installieren !!
hat den Vorteil, wenig RAM, stabil laufende WUs (selbst bei Volllast der CPU)
und es spart den ganzen Ärger, den JayPi beschrieben hat ..

Cheers 😊

taurec
17.12.2019, 16:53
servus HL und JayPi,
einziges Manko der WUs/des Projektes (hier Linux) ist noch:
Auf "Anhalten" stellen einer WU bedeutet nicht, dass die keine Prozessorzeit mehr belegt. Die läuft voll weiter.
Hatte mich jetzt auf einem Rechner bei PG gewundert, dass der keine CPU-Wutze mit 8 Kernen berechnen wollte, und als ich dann mit "top" nachsah ...

AxelS
17.12.2019, 19:48
Hallo JayPi, HJL und taurec

Ganz klar, QuChemPedlA läuft auf Linux problemlos, im Gegensatz zu der VM-Sache unter Windows. Meine letzten verbleibenden WU habe ich heute auf der Win-Kiste abgebrochen. Eben die gleichen Probleme, wie JayPi gepostet hatte musste ich auch feststellen. Die Credits-Ausbeute geht da seit Tagen mehr oder weniger gegen Null, umso mehr, je mehr WUs einfach stehen geblieben sind. Und tagsüber kann ich nicht nach meinen Rechnern schauen, leider. :undecided:

Unter Linux ist der nwchem ist der eigentliche Prozess, der die CPU beschäftigt. Die Eigenschaften einer WU zwar eine Prozess-ID, aber diese ist nur die des wrappers. Mit
ps jf -U boinc |grep -A3 <pid der wu> kann man die hierachischen Zusammenhänge der WU mit den Unterprozessen anzeigen. Da soll auch nach worker.sh, run.sh und mpirun auch das nwchem auftauchen. Mit dessen PID füttert man den Befehl top.

Meine Beobachtung ist: Beim Anhalten einer WU läuft dieser nwchem-Unterprozess noch einige Sekunden weiter und beendet sich selbst oder er wird beendet. Beim Fortsetzen der WU wird ein neuer Unter-Prozess mit einer anderen PID gestartet.

@HJL
:thumbup:

pschoefer
16.01.2020, 16:49
Die vorherige Serie von Berechnungen ist abgeschlossen, zwei mögliche Ansätze zur Fortführung des Projektes wurden vorgestellt. Projektteilnehmer können in diesem Thread (https://quchempedia.univ-angers.fr/athome/forum_thread.php?id=53) ihre Meinung dazu äußern.

Neuigkeiten und Abstimmung
Liebe Quchempedia-Cruncher!

Die erste Generation unserer neu erzeugten kleinen Moleküle ist fast fertig. Danke nochmals.

Wir haben zwei Vorschläge für die nächste Phase der Berechnungen:

1. Eine Pause einlegen (etwa einen Monat), um die neuesten Berechnungen zu analysieren und zu verarbeiten, aus den Erfolgen und Fehlschlägen der Berechnungen lernen und dann neue kleine Moleküle erzeugen. Wahrscheinlich mit etwas mehr als 9 Atomen.

2. Einige der neu erzeugten Verbindungen zu einem im Chemielabor hier in Angers verwendetem Kern (BTX) hinzufügen (siehe die Zusammenfassung dieses Artikels: https://pubs.rsc.org/en/content/articlelanding/2019/nj/c9nj05804d/unauth#!divAbstract, engl.), um vorzuführen, wie wir unsere neu erzeugten Moleküle in einem echten System verwenden können, zu zeigen, wie ein Fragment die Eigenschaften des Kerns verändern kann, sowie als Screening-Beispiel. Diese Berechnungen sind sehr interessant und können sehr schöne Anwendungen haben (Medikamente und Werkstoffe).

Beachtet, dass die zweite Option bedeutet, dass die Moleküle mehr als 9 schwere Atome haben werden, wahrscheinlich mehr als etwa 30, und die Berechnungen daher Tage dauern können. Die gute Nachricht ist, dass die nächsten WUs den Zwischenstand speichern werden. BOINC wird den wirklichen Fortschritt nicht anzeigen können und davon ausgehen, dass die Berechnung von vorne beginnt, aber wir haben einige Tests durchgeführt und die Berechnungen liefen vom letzten Zwischenschritt weiter. Die erwarteten Berechnungszeiten werden immer sehr ungefähr und unzuverlässig sein, wir werden einen recht hohen Wert auswählen.

Falls ihr die erste Option auswählt, werden wir die BTX-WUs mit unseren eigenen Resourcen berechnen und eine Nachricht schreiben, wenn wir die neuen kleinen Moleküle verarbeitet und erzeugt haben.

Vielen Dank für eure Wahl und Meinungen unter diesem Beitrag (https://quchempedia.univ-angers.fr/athome/forum_thread.php?id=53).

Mit freundlichem Gruß,
Thomas and Benoit
14.01.2020, 15:24:40 MEZ

Originaltext:

Updates and poll
Dear Quchempedia crunchers!

First generation of our newly generated small molecules is almost finished. Thanks again.

We have two propositions for the new phase of calculations :

1. Make a pause (maybe a month or so), in order to parse and treat the recent calculations, learn from the success and failures of the calculations and then generate new small molecules. Probably with a little bit more than 9 atoms.

2. Take some of the newly generated compounds, add them to a core (BTX) used in the chemistry lab here in Angers (see the abstract of this article https://pubs.rsc.org/en/content/articlelanding/2019/nj/c9nj05804d/unauth#!divAbstract) to demonstrate how we can use our newly generated molecules inside a real system, to show how a fragment can modify the core properties and to serve as a screening example. These calculations are very interesting and can lead to very nice applications (drugs and materials).

Beware that the second choice, means that the molecules will have more than 9 heavy atoms, probably more than 30 and so calculations could take days. The good news is that the next workunits will implement checkpointing. Boinc will not be able to display the real level of progress and will think that the calculation starts again from the beginning. But we've run some tests and the calculations restart from the very last step. The expected calculation times will always be very approximate and unreliable, we will voluntarily choose a slightly high value.

If you choose the first option, we will calculate the BTX ones with our private ressources and we will post a news when we will have treated and generated new small molecules.

Thank you for giving your choices and opinions under this post.

Kindly,
Thomas and Benoit
14 Jan 2020, 14:24:40 UTC

Brisco82
03.02.2020, 21:50
Moin Zusammen,

es gibt seit heute Mittag wieder WU's. Diese sollen jetzt einheitlich mit 200 Credits vergütet werden.
Also viel Spaß beim wegknuspern :-)

Viele Grüße

Brisco

DerLetzteGermane
14.07.2020, 20:15
Hi, ich habe heute dem ersten mal ein par WU´s bekommen. Weiß nicht ob es da vorher Probleme gab. Aber ich habe das Projekt schon seit einigen Wochen in der Liste und bislang nie etwas erhalten. Gruß

- - - Aktualisiert - - -

Update bei mir sind inzwischen 6 auf "Verschoben: VM job unmanageable, restarting later." gelaufen. Bei Laufzeiten zwischen 1:35-1:00:44. Bislang ist keiner fertig. Habe jetzt noch mal 4 neue gestartet.
So macht es auf jeden fall kein Spaß.

taurec
15.07.2020, 20:24
servus Germane :-)
hm, ich rechne da jetzt schon seit mindestens drei Wochen die langen WUs. Welche WUs hast du eingestellt? long?
Die long benötigen bis zu 900 MB an RAM, sollte aber bei deinem Rechner mit 32GB kein Problem sein.
Oder rechnest du nur die kurzen? Über Virtual Box? Dann könnte die VBox-Version ein Problem sein.
Mein Betriebssystem Linux 64bit. Evtl. können wir da was finden, wenn du Windows nutzt.

Edit: Die WUs (long) bei mir laufen schon mal 26 Stunden im Schnitt. Die Laufzeit-Anzeige funktioniert aber annähernd.

DerLetzteGermane
17.07.2020, 06:20
Hi,
ich benutzt Boinc +VBox unter Windows. Habe 4 von 12 fertig, die sind jetzt ausstehend. Ein "Long" hatte ich dabei auch der hat genau nach 5min ein Fehler gehabt. Alles läuft bei mir als vbox64_t1
Werde jetzt erstmal WCG jetzt machen und mich dann auf Prime Event vorbereiten.
Gruß

pschoefer
18.07.2020, 13:03
Ein Artikel mit Ergebnissen von QuChemPedIA@home wurde beim Journal of Cheminformatics eingereicht. Außerdem sind nun auch wieder kurze WUs mit kleinen Molekülen verfügbar.

Wissenschaftliche Veröffentlichung und neue WUs
Liebe Cruncher,

zunächst vielen Dank für eure Hilfe und euer Interesse an unserer Forschung.

Wir sind stolz, die bevorstehende Veröffentlichung unserer Arbeit an der Erzeugung von Molekülen mit künstlicher Intelligenz anzukündigen. Ihr könnt hier bereits den ersten Entwurf lesen: https://www.researchsquare.com/article/rs-36676/v1 (engl.). Es ist eine Rohversion fast ohne Formatierungen. Es gibt eine sauberere Version, die in ein paar Wochen herausgegeben werden dürfte. Der Artikel wird frei verfügbar sein, ebenso der Quellcode des Molekülgenerators und die Daten. Offene Wissenschaft!

Unsere Erforschung des chemischen Raums geht weiter und wir haben gerade mehr als 2,5 Millionen kleine Moleküle erzeugt. Ich weiß, dass einige Leute ungeduldig auf die Rückkehr der kurzen WUs warten und hier sind sie! Wie zuvor werden viele Berechnungen aufgrund instabiler Moleküle als nichtig betrachtet werden, aber das ist der Preis für eine unvoreingenommene Kartierung des chemischen Raums. Die ersten Ergebnisse sind vielversprechend und wir hoffen, dass diese 2,5 Millionen neuen Moleküle helfen werden, ein extrem nützliches Werkzeug für viele Chemiker anzubieten.

Mit freundlichem Gruß,
Benoit
18.07.2020, 10:31:44 MEZ

Originaltext:

Scientific publication and new WUs
Dear crunchers.

First of all, thank you very much for your help and for your interest in our research.

We are proud to announce the imminent publication of our work on the generation of molecules with AI. You can already read the first draft here : https://www.researchsquare.com/article/rs-36676/v1. It's a raw version with almost no formatting. We have a more polished version that should come out in few weeks. The article will be in open access, the molecule generator in open source and the data in open data. Open Science!

Our exploration of chemical space continues and we have just generated more than 2.5 million small molecules. I know that some people are waiting eagerly for the return of the short WU and here they are! As before, many calculations will be considered invalid because of unstable molecules, but this is the price for unbiased cartography of the chemical space. The first results are very encouraging and we hope that these 2.5 million new molecules will help to provide extremely useful tools for many chemists.

Sincerly
Benoit
18 Jul 2020, 9:31:44 UTC

pschoefer
29.09.2020, 18:49
Der vor zwei Monaten beim Journal of Cheminformatics eingereichte Artikel über das Molekül-Erzeugungsprogramm EvoMol wurde inzwischen begutachtet und veröffentlicht, die Zusammenfassung ist in der folgenden Übersetzung enthalten. Außerdem gibt es einen Ausblick auf bevorstehende Arbeiten.

Wissenschaftliche Veröffentlichung und Neuigkeiten
Liebe Cruncher,

vielen Dank für eure Hilfe.

Ich freue mich, die Veröffentlichung unseres neuesten Open-Access-Artikels über EvoMol, unser quelloffenes Molekül-Erzeugungsprogramm, bekanntzugeben.

EvoMol: ein flexibler und interpretierbarer evolutionärer Algorithmus zur unvoreingenommenen Neuschöpfung von Molekülen
Ziel dieser Arbeit ist das Entwerfen eines Molekül-Erzeugungsprogramms, das sowohl bekannte als auch weniger bekannte Abschnitte des chemischen Raums erforschen kann.
Unsere Methode muss sich flexibel an sehr unterschiedliche Probleme anpassen können. Daher muss sie mit oder ohne den Einfluss vorheriger Daten und Wissens funktionieren. Außerdem sollte sie unabhängig vom Erfolg so gut wie möglich interpretierbar sein, um Diagnosen und Verbesserungen zuzulassen.
Wir schlagen hier eine neue quelloffene Erzeugungsmethode zum sequentiellen Aufbau molekularer Graphen unter Verwendung eines evolutionären Algorithmus vor. Sie ist unabhängig von den Startwerten und kann bisher nicht gesehene chemische Verbindungen erzeugen. Um einen großen Abschnitt des chemischen Raums durchsuchen zu können, definieren wir einen ursprünglichen Satz von 7 generischen Mutationen nahe an der atomaren Ebene.
Unsere Methode erreicht hervorragende Leistungen und sogar Rekorde bei QED, plogP, SAscore und CLscore sowie dem Satz zielorientierter Funktionen in GuacaMol. Um ihre Flexibilität zu demonstrieren, gehen wir eine sehr andersartige Zielsetzung aus dem Gebiet der organischen molekularen Festkörper an. Wir zeigen, dass EvoMol allein von Methan ausgehend Sätze optimierter Moleküle mit hochenergetischen höchsten besetzten Molekülorbitalen (engl. highest occupied molecular orbital, HOMO) und niedrigenergetischen niedrigsten unbesetzten Molekülorbitalen (engl. lowest unoccupied molecular orbital, LUMO) erzeugen kann. Wir können auch Synthetisierbarkeit und strukturelle Eigenschaften einschränken. Schließlich erlaubt die Interpretierbarkeit von EvoMol die Darstellung seines Erforschungsprozesses als chemisch relevantes Baumdiagramm.

Ihr könnt den vollständigen Artikel kostenlos aufrufen:
https://www.researchgate.net/publication/344326849_EvoMol_a_flexible_and_interpretable_evol utionary_algorithm_for_unbiased_de_novo_molecular_ generation (engl.)
oder hier:
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00458-z (engl.)

Ihr könnt uns ein wenig mehr helfen, indem ihr diese Seiten besucht, um uns Sichtbarkeit zu verschaffen, und ihr könnt sie auch in euren Teamforen und/oder in Sozialen Netzwerken wie Twitter (@b_damota) teilen.

Wir arbeiten nun schon seit einiger Zeit am nächsten Artikel. Dieser wird sich insbesondere mit den seit Projektbeginn von euch durchgeführten Berechnungen befassen. Das Ergebnis wird ein frei zugänglicher Datensatz sein. Während wir diesen Artikel schreiben, arbeiten wir auch an den nächsten Schritten. Ohne zuviel zu verraten kann ich nur erzählen, dass eure Berechnungen uns helfen werden, ein einzigartiges, für Chemiker besonders nützliches Werkzeug vorzuschlagen. Wir werden euch natürlich auf dem Laufenden halten! Derzeit laufen zwei Kampagnen, die nicht die oben genannte Arbeit betreffen. Die "nwchem long"-WUs und die neuen "nwchem"-WUs mit dem Präfix "CL9" werden neue Ergebnisse für Artikel Ende 2021 oder 2022 hervorbringen.

Mit freundlichem Gruß,
Benoit
29.09.2020, 9:09:19 MEZ

Originaltext:

Scientific publication and news
Dear Crunchers.

Thank you very much for your help.

I am pleased to announce the publication of our latest open access article describing EvoMol, our opensource molecule generator.

EvoMol: a flexible and interpretable evolutionary algorithm for unbiased de novo molecular generation
The objective of this work is to design a molecular generator capable of exploring known as well as unfamiliar areas of the chemical space.
Our method must be flexible to adapt to very different problems. Therefore, it has to be able to work with or without the influence of prior data and knowledge. Moreover, regardless of the success, it should be as interpretable as possible to allow for diagnosis and improvement.
We propose here a new open source generation method using an evolutionary algorithm to sequentially build molecular graphs. It is independent of starting data and can generate totally unseen compounds. To be able to search a large part of the chemical space, we define an original set of 7 generic mutations close to the atomic level.
Our method achieves excellent performances and even records on the QED, penalised logP, SAscore, CLscore as well as the set of goal-directed functions defined in GuacaMol. To demonstrate its flexibility, we tackle a very different objective issued from the organic molecular materials domain. We show that EvoMol can generate sets of optimised molecules having high energy HOMO or low energy LUMO, starting only from methane. We can also set constraints on a synthesizability score and structural features. Finally, the interpretability of EvoMol allows for the visualisation of its exploration process as a chemically relevant tree.

You can find for free the full article :
https://www.researchgate.net/publication/344326849_EvoMol_a_flexible_and_interpretable_evol utionary_algorithm_for_unbiased_de_novo_molecular_ generation
or here :
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00458-z

You can help us a little bit more by visiting these pages to give us visibility and you can also share on your teams forums and/or social websites like tweeter.(@b_damota)

We have been working for some time now on the following article. It will deal in particular with the calculations you have made since the beginning of the project. The result will be an open access dataset. While we are writing this article we are also working on the next parts. Without divulging, I can only tell you that your calculations will help us to propose a unique tool that is particularly useful for chemists. We will of course keep you informed! Currently, two campaigns are in progress and do not concern the work mentioned above. The "nwchem long" units and the new "nwchem" with tasks with prefix "CL9" will also bring new results for articles probably end of 2021 or 2022.

Kindly
Benoit
29 Sep 2020, 8:09:19 UTC

marodeur6
01.03.2021, 15:36
Hallo zusammen,

ich hoffe, es rechnet noch einer das Projekt...
Ich habe eine Menge an Fehlern bei den normalen WUs, nicht long. Im Log sehe ich, dass sie ordentlich gerechnet worden sind und ohne Fehler beendet wurden.
Fehler sind Bestätigungsfehler oder Fertig, Bestätigung nicht möglich :mad:
Ich rechne mit Ubuntu unter Linux auf AMD CPUs. BOINC 7.16.6

Wenn die Menge an Fehlern so bleibt, dann gehe ich aus dem Projekt wieder raus. Formula Boinc hin oder her...

Update: Ich habe mal andere Rechner durchgesehen. Alle das gleiche Problem... also vergesst diesen Post.
Es ist, wie es ist.

pschoefer
02.03.2021, 14:49
Diese ungültigen Ergebnisse kommen dadurch zustande, dass bei der Art der durchgeführten Berechnungen durchaus chemisch unsinnige Ergebnisse auftreten können. Leider kann der Validator dann nicht unterscheiden, ob nun wegen ungünstiger Startwerte, wegen Hardwarefehlern oder wegen Manipulation Unfug gemeldet wurde. Angesichts der Häufigkeit des ersten Falls, in dem der Teilnehmer alles richtig gemacht hat, ist das vom Projekt sicher nicht gerade gut umgesetzt.

marodeur6
05.03.2021, 18:57
Hi Patrick,

danke für die Info.
Ich rechne jetzt trotzdem erstmal weiter, bis ich eine Mio voll habe.

pschoefer
17.03.2021, 15:34
Nach mehrtägigem Ausfall aufgrund eines Festplattendefekts läuft das Projekt jetzt wieder, erfreulicherweise ohne Datenverlust.

Großer Serverausfall
Hallo zusammen.

Der Server war aufgrund eines Ausfalls der Systemfestplatten fünf Tage lang nicht erreichbar. Mit großem Aufwand haben wir es geschafft, den Server ohne Datenverlust wieder ans Netz zu bringen. Die Festplatten-Redundanz ist wieder aktiv.

Bitte entschuldigt das Ausbleiben von Neuigkeiten. Die aktuelle Kampagne läuft noch immer und wir arbeiten auch an wissenschaftlichen Veröffentlichungen. Die Gesundheitssituation beschert uns viel zusätzliche Arbeit, aber wir geben nicht auf!

Mit freundlichen Grüßen,
Benoit
17.03.2021, 15:51:21 MEZ

Originaltext:

Big server failure
Hello everybody.

The server has been offline for 5 days due to a failure on the system disks. With a lot of work, we managed to get the server back online without any data loss. The disk redundancy is back online.

Sorry for the lack of news. The current campaign is still ongoing and we are also working on scientific publications. The health situation gives us a lot of extra work, but we don't give up!

Best regards
Benoit
17 Mar 2021, 14:51:21 UTC

pschoefer
16.08.2021, 10:53
Wegen Wartungsarbeiten am Stromnetz wird QuChemPedIA@home bis nächsten Montag eine Pause einlegen.

Server für Wartungsmaßnahmen heruntergefahren
Liebe Mitglieder,

wegen Überprüfungsmaßnahmen des Stromnetzes (in der ganzen Universität) muss der Server ab morgen (16. August) für etwa eine Woche heruntergefahren werden. Ich hoffe, alles am 23. August wieder starten zu können.

Mit freundlichen Grüßen,
Benoit
15.08.2021, 21:08:02 MEZ

Originaltext:

Server shutdown for maintenance
Dear members.

For electrical checking reasons (in the whole university), the server must be shut down from tomorrow August 16th for about a week. I hope to be able to restart everything on August 23rd.

Sincerely
Benoit
15 Aug 2021, 20:08:02 UTC

Dennis-TW
16.08.2021, 11:52
Hab ich mit den Erreichen eines 100k Badge gerade nochmal Glück gehabt.

Für mehr bin ich bei diesem Projekt - zu dessen Hauptmerkmal es gehört, dass 30-50% der berechneten WUs nicht gewertet werden können - nicht bereit zu rechnen. Hatte Patricks Post (https://www.seti-germany.de/forum/threads/9382-QuChemPedIA-home?p=333355&viewfull=1#post333355) dazu leider zu spät gesehen.