PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : 12% meiner WU sind invalid ???



Thalix
03.04.2020, 15:47
Hallo zusammen.

Bei mir steigt die Rate der fehlerhaften WU gerade rapide an.

Nur 4.12er WU. Nach nach 7 hours 59 min 2 sec +/- 30 Sekunden kommt: Computation error. Ein Beispiel ist die WU "hugh2020_HHH_rd4_0284_wt_fragments_abinitio_SAVE_A LL_OUT_904965_720_0"
Von 284 gerechneten WU sind 251 valid und 33 invalid. Kühlungsprobleme/RAM kann ich ausschließen. Alle WU vor 4.12 sowie alle Minis haben keine Probleme.

Jemand eine Idee?

WBT112
03.04.2020, 16:05
Hallo Thalix,

Wie sieht denn der Fehler konkret aus ? Das Log kannst du auf der Rosetta Homepage bei den Berechnungsfehlern unter dem Punkt "Aufgabe" finden.
Aktuell gibt es vermehrt Speicherüberläufe bei den COVID Workunits die sich gern mal mehr als 1 GB krallen z.B. wenn man nur 8 GB RAM aber auch 8 CPU-Kerne hat.

Thalix
03.04.2020, 16:33
Es handelt sich z.B. um diesen Task:
https://boinc.bakerlab.org/rosetta/result.php?resultid=1138646572

Der Server hat 256GB ECC RAM und mindestens noch 100 GB RAM und 1 TB Storage für BOINC zur Verfügung.
Vor allem das der Fehler immer wenige Sekunden vor Abschluss erzeugt wird, bei 8h vorheriger Rechenzeit. Sehr seltsam.

nexiagsi16v
03.04.2020, 17:01
Komisch ist, das welche der gleichen WU-Art hugh2020_HHH_ die zum gleichen Zeitpunkt runter geladen wurden okay sind. Wieviel WUs laufen gleichzeitig bei deiner Super-CPU? Evtl. mal 2 WUs weniger laufen lassen.

Thalix
03.04.2020, 18:36
64 laufen gleichzeitig. Deine Idee ist super! Ich werde mal um 4 oder 8 reduzieren.

Thalix
04.04.2020, 15:07
Leider hat die Reduzierung der parallel laufenden WU keine Besserung gebracht.
Ich habe jetzt auf einen neueren Kernel gewechselt, vom Debian Kernel 4.19 auf 5.4.

walli
06.04.2020, 02:13
Moin,

hast Du zufällig mal geschaut, ob die Tasks vielleicht ihre Deadline verpassen? Das Problem hatte ich auch, und Rosetta scheint da eine scharfe Grenze zu ziehen. Ich habe dazu auch gerade etwas in einem anderen Thread zu geschrieben... *raussuch* hier (https://www.seti-germany.de/forum/threads/9443-Keine-WU-s?p=326232&viewfull=1#post326232), gefindet :). Ggf. auch noch einmal bei Deinen Results auf der Rosetta-Homepage schauen, was da im Stderr-Log steht.

Viele Grüße

walli

Thalix
07.04.2020, 05:01
Hallo walli,

das hätte es in der Tat sein können, eine gute Idee von dir!
In dem Fall war es aber anscheinend wirklich der Kernel. Vermutlich benötigte die CPU unter Hochlast einfach einen modernen Kernel mit entsprechenden Patches für die Hardware. Ich verwende nun Kernel 5.4 und es scheint zu laufen.

Viele Grüße
Thalix

Rainer Baumeister
07.04.2020, 08:49
Moin Thalix,

das war bei mir mit dem älteren Ryzen1700 auch so: Mit dem 4.xx Kern hatte ich massig Fehler.
Nach Upgrade auf Mint Tricia (19.3) wurde es besser.
Für Ryzen wohl Pflichtprogramm, zur Sicherheit aber im Moment auf Win10würg.:sad:

User [AF] mAxYmUs83 hatte ich wegen seiner tausenden Fehlern über Rosetta angeschrieben,
aber er rechnet weiter mit Ubuntu und dem ollen 4.15x Kernel.:wacko:

Dafür wäre mir der Strom zu schade. Fehler nach ein paar Minuten OK, aber nicht nach Stunden..
Gruß Rainer

walli
08.04.2020, 02:43
Hi Rainer,

hattest Du bestimmte Fehlermeldungen unter Linux bekommen? Hattest Du zufällig mal in /var/log/kern.log und /var/log/syslog geschaut, ob das System "Segmentation Faults"/"segfault" protokollierte?

Hast Du diese Effekte mit Deinem Ryzen 7 1700er unter Windows 10 noch immer?

Falls nein: gut. Falls ja, so möchte ich nur kurz in den Raum werfen, dass Dein Rechner generell Stabilitätsprobleme aufgrund des RAMs resp. des Ramtaktes, der Timings, der Spannung und ggf. weiteren involvierten Einstellungen haben könnte (bspw. auch durch eine automatischen Übertaktung der CPU). Deine Signatur besagt:

"Ryzen 1700 ... mit 2x 16GB 3200"

Falls Dein RAM auch tatsächlich auf 3200 MHz laufen sollte (sprich eingestellt ist), könnte dies ggf. zu Speicherfehlern führen. Anfänglich hatte man den RAM bei der ersten Ryzen-Generation oftmals nicht so hoch und stabil konfiguriert bekommen. Ggf. solltest Du mal einen "memtest" durchführen und schauen, ob er Fehler wirft (gibt es auf jeder Linux-CD oder einfach aus dem Netz laden und auf einen USB-Stick schubsen, bspw. die kostenlose Version von https://www.memtest86.com).

Nach etlichen BIOS-/Firmware-Updates hatte sich die Situation mit der Zeit gebessert, aber es hängt auch weiterhin noch von der Anzahl und Art der Speichermodule ab, mit welchen Werten der RAM betrieben werden kann. Sobald Du bspw. Dual-Rank-Module nutzt, geht es mit den Taktraten bergab, genauso, wenn Du mehr als 2 Riegel verbauen solltest; soll heissen: Auch wenn Du exemplarisch 4x 3200er RAM verbaust, kann dieser im Verbund in aller Regel nur mit geringerem Takt als 3200 MHz betrieben werden. Zur Not also lieber den RAM etwas heruntertakten auf bspw. 2933 oder 2666 MHz und/oder auf ein mögliches XMP-/D.O.C.P.-Profil (für automatische RAM-Übertaktung) verzichten und solange Speichertests durchführen, bis die Kiste keine Fehler mehr wirft.

Ich habe auch schon RAM in Händen gehalten, der neu und trotzdem bereits defekt war oder welchen, der relativ schnell defekt ging. Manchmal ist es ein schleichender Prozess, manchmal merkt man es auch sofort.

Das soll Dich jetzt nicht kirre machen, sondern lediglich als Anregung dienen, das Problem möglicherweise weiter zu untersuchen, falls Lust und nicht bereits geschehen. ;) Vielleicht kennst Du Dich mit dem ganzen Kram ja auch aus, dann ignoriere meine Nachricht ganz einfach. :) Ich wollte das Thema auch nur ganz kurz und in groben Zügen anschneiden...

Viele Grüße

walli

No_Name
08.04.2020, 08:31
Also ich hatte schon einen R7 1700x wo alle Speichertests ohne Fehler durchliefen, aber Rosetta nicht.
Beim Ryzen 2700 im gleichen System trat dieser Fehler dann nicht mehr auf.

bossmaniac
09.04.2020, 08:51
Bei mir sind auffällig viele Rosetta mini v3.78 mit "Abgebrochen durch Server" als Fehlerhaft gelistet.

No_Name
09.04.2020, 08:57
Ich hatte sie, bevor die Serie abgebrochen wurde. Alle nach max. 60 Sekunden Berechnungsfehler.

Rainer Baumeister
09.04.2020, 13:29
Moin Walli,
Danke für die Rückmeldung.

Aktuell läuft der 1700 unter win10pro ohne Probs.
Es gab ja schon vor geraumer Zeit mal das Problem mit Rosetta unter Linux. Bei Win noch nie ein Probs.
Das Brett/RAM und CPU ist von J.Z: zusammengestellt/geschraubt, nur vom feinsten..
Wenn sich einer dort auskennt, dann Jörg.
Der RAM ist ein 3200er, der in der Tat mit 2999 läuft.

Ab heute Abend saust dann auch mein 3700x unter Mint 19.3
Denn hatte mir WCG leider bei einem Rosetta-Mangel zugeschüttet.

Und nun weiter Power:
Dialog aus dem Film: AK, drei mal Wahnsinnige. LI: A l l e s was drin ist...:D

Gruß Rainer

walli
09.04.2020, 14:23
Hi Rainer,

oh, da kennt noch jemand J.Z. :). Aber ich sehe gerade, der ist von Dir ja auch gar nicht mal so weit weg... Ich kenne ihn nur durch Schleichwerbung... ;).

Viele Grüße

walli