Ergebnis 1 bis 15 von 15

  1. Titel
    Neuling

    Bewertung

    Registriert am
    22.03.2020

    Beiträge
    34

    Danke
    Danke gesagt 4   Danke erhalten 0

    #1

    Standard 12% meiner WU sind invalid ???

    Hallo zusammen.

    Bei mir steigt die Rate der fehlerhaften WU gerade rapide an.

    Nur 4.12er WU. Nach nach 7 hours 59 min 2 sec +/- 30 Sekunden kommt: Computation error. Ein Beispiel ist die WU "hugh2020_HHH_rd4_0284_wt_fragments_abinitio_SAVE_A LL_OUT_904965_720_0"
    Von 284 gerechneten WU sind 251 valid und 33 invalid. Kühlungsprobleme/RAM kann ich ausschließen. Alle WU vor 4.12 sowie alle Minis haben keine Probleme.

    Jemand eine Idee?

  2. Avatar von WBT112
    Titel
    BOINC Maniac

    Bewertung

    Registriert am
    28.10.2009

    Ort
    meistens unterm Tresen wo ich liegengeblieben bin :D

    Beiträge
    652

    Danke
    Danke gesagt 56   Danke erhalten 6

    #2

    Standard

    Hallo Thalix,

    Wie sieht denn der Fehler konkret aus ? Das Log kannst du auf der Rosetta Homepage bei den Berechnungsfehlern unter dem Punkt "Aufgabe" finden.
    Aktuell gibt es vermehrt Speicherüberläufe bei den COVID Workunits die sich gern mal mehr als 1 GB krallen z.B. wenn man nur 8 GB RAM aber auch 8 CPU-Kerne hat.


  3. Titel
    Neuling

    Bewertung

    Registriert am
    22.03.2020

    Beiträge
    34

    Danke
    Danke gesagt 4   Danke erhalten 0

    #3

    Standard

    Es handelt sich z.B. um diesen Task:
    https://boinc.bakerlab.org/rosetta/r...tid=1138646572

    Der Server hat 256GB ECC RAM und mindestens noch 100 GB RAM und 1 TB Storage für BOINC zur Verfügung.
    Vor allem das der Fehler immer wenige Sekunden vor Abschluss erzeugt wird, bei 8h vorheriger Rechenzeit. Sehr seltsam.

  4. Avatar von nexiagsi16v
    Titel
    Gold Member

    Bewertung

    Registriert am
    05.12.2014

    Beiträge
    2.041

    Danke
    Danke gesagt 22   Danke erhalten 0

    #4

    Standard

    Komisch ist, das welche der gleichen WU-Art hugh2020_HHH_ die zum gleichen Zeitpunkt runter geladen wurden okay sind. Wieviel WUs laufen gleichzeitig bei deiner Super-CPU? Evtl. mal 2 WUs weniger laufen lassen.
    Ciao Norman

    Ryzen 5 3600 @4GHz, 3x RX 5700, 32GB DDR4//FX8370 @4GHz, 16GB DDR3 1600, RX 470 + R9 270X// Dauercruncher i3 8300, 8GB RAM // Läppi B940 @2GHz


  5. Titel
    Neuling

    Bewertung

    Registriert am
    22.03.2020

    Beiträge
    34

    Danke
    Danke gesagt 4   Danke erhalten 0

    #5

    Standard

    64 laufen gleichzeitig. Deine Idee ist super! Ich werde mal um 4 oder 8 reduzieren.


  6. Titel
    Neuling

    Bewertung

    Registriert am
    22.03.2020

    Beiträge
    34

    Danke
    Danke gesagt 4   Danke erhalten 0

    #6

    Standard

    Leider hat die Reduzierung der parallel laufenden WU keine Besserung gebracht.
    Ich habe jetzt auf einen neueren Kernel gewechselt, vom Debian Kernel 4.19 auf 5.4.

  7. Avatar von walli
    Titel
    Full Member

    Bewertung

    Registriert am
    12.06.2016

    Ort
    Bochum

    Beiträge
    198

    Danke
    Danke gesagt 3   Danke erhalten 5

    #7

    Standard

    Moin,

    hast Du zufällig mal geschaut, ob die Tasks vielleicht ihre Deadline verpassen? Das Problem hatte ich auch, und Rosetta scheint da eine scharfe Grenze zu ziehen. Ich habe dazu auch gerade etwas in einem anderen Thread zu geschrieben... *raussuch* hier, gefindet . Ggf. auch noch einmal bei Deinen Results auf der Rosetta-Homepage schauen, was da im Stderr-Log steht.

    Viele Grüße

    walli


  8. Titel
    Neuling

    Bewertung

    Registriert am
    22.03.2020

    Beiträge
    34

    Danke
    Danke gesagt 4   Danke erhalten 0

    #8

    Standard

    Hallo walli,

    das hätte es in der Tat sein können, eine gute Idee von dir!
    In dem Fall war es aber anscheinend wirklich der Kernel. Vermutlich benötigte die CPU unter Hochlast einfach einen modernen Kernel mit entsprechenden Patches für die Hardware. Ich verwende nun Kernel 5.4 und es scheint zu laufen.

    Viele Grüße
    Thalix

  9. Avatar von Rainer Baumeister
    Titel
    Gold Member

    Bewertung

    Registriert am
    04.07.2007

    Ort
    Hagen/Westfalen

    Beiträge
    1.886

    Danke
    Danke gesagt 78   Danke erhalten 96

    #9

    Standard

    Moin Thalix,

    das war bei mir mit dem älteren Ryzen1700 auch so: Mit dem 4.xx Kern hatte ich massig Fehler.
    Nach Upgrade auf Mint Tricia (19.3) wurde es besser.
    Für Ryzen wohl Pflichtprogramm, zur Sicherheit aber im Moment auf Win10würg.

    User [AF] mAxYmUs83 hatte ich wegen seiner tausenden Fehlern über Rosetta angeschrieben,
    aber er rechnet weiter mit Ubuntu und dem ollen 4.15x Kernel.

    Dafür wäre mir der Strom zu schade. Fehler nach ein paar Minuten OK, aber nicht nach Stunden..
    Gruß Rainer
    Ryzen 3700X mit RTX2070 (440.82) mit Mint-Tricia auf Asrock X470 Taichi mit 2x 16GB 3200
    Ryzen 1700 mit GTX1070ti (440.82) mit Mint-Tricia auf Asrock X370 Taichi mit 2x 16GB 2933
    Laptop i5 2430M Win7/64 Home und
    4x Odroid XU4 mit Android, sowie Handys und Tablet

  10. Avatar von walli
    Titel
    Full Member

    Bewertung

    Registriert am
    12.06.2016

    Ort
    Bochum

    Beiträge
    198

    Danke
    Danke gesagt 3   Danke erhalten 5

    #10

    Standard

    Hi Rainer,

    hattest Du bestimmte Fehlermeldungen unter Linux bekommen? Hattest Du zufällig mal in /var/log/kern.log und /var/log/syslog geschaut, ob das System "Segmentation Faults"/"segfault" protokollierte?

    Hast Du diese Effekte mit Deinem Ryzen 7 1700er unter Windows 10 noch immer?

    Falls nein: gut. Falls ja, so möchte ich nur kurz in den Raum werfen, dass Dein Rechner generell Stabilitätsprobleme aufgrund des RAMs resp. des Ramtaktes, der Timings, der Spannung und ggf. weiteren involvierten Einstellungen haben könnte (bspw. auch durch eine automatischen Übertaktung der CPU). Deine Signatur besagt:

    "Ryzen 1700 ... mit 2x 16GB 3200"

    Falls Dein RAM auch tatsächlich auf 3200 MHz laufen sollte (sprich eingestellt ist), könnte dies ggf. zu Speicherfehlern führen. Anfänglich hatte man den RAM bei der ersten Ryzen-Generation oftmals nicht so hoch und stabil konfiguriert bekommen. Ggf. solltest Du mal einen "memtest" durchführen und schauen, ob er Fehler wirft (gibt es auf jeder Linux-CD oder einfach aus dem Netz laden und auf einen USB-Stick schubsen, bspw. die kostenlose Version von https://www.memtest86.com).

    Nach etlichen BIOS-/Firmware-Updates hatte sich die Situation mit der Zeit gebessert, aber es hängt auch weiterhin noch von der Anzahl und Art der Speichermodule ab, mit welchen Werten der RAM betrieben werden kann. Sobald Du bspw. Dual-Rank-Module nutzt, geht es mit den Taktraten bergab, genauso, wenn Du mehr als 2 Riegel verbauen solltest; soll heissen: Auch wenn Du exemplarisch 4x 3200er RAM verbaust, kann dieser im Verbund in aller Regel nur mit geringerem Takt als 3200 MHz betrieben werden. Zur Not also lieber den RAM etwas heruntertakten auf bspw. 2933 oder 2666 MHz und/oder auf ein mögliches XMP-/D.O.C.P.-Profil (für automatische RAM-Übertaktung) verzichten und solange Speichertests durchführen, bis die Kiste keine Fehler mehr wirft.

    Ich habe auch schon RAM in Händen gehalten, der neu und trotzdem bereits defekt war oder welchen, der relativ schnell defekt ging. Manchmal ist es ein schleichender Prozess, manchmal merkt man es auch sofort.

    Das soll Dich jetzt nicht kirre machen, sondern lediglich als Anregung dienen, das Problem möglicherweise weiter zu untersuchen, falls Lust und nicht bereits geschehen. Vielleicht kennst Du Dich mit dem ganzen Kram ja auch aus, dann ignoriere meine Nachricht ganz einfach. Ich wollte das Thema auch nur ganz kurz und in groben Zügen anschneiden...

    Viele Grüße

    walli

  11. Avatar von No_Name
    Titel
    ist hier zu Hause

    Bewertung

    Registriert am
    27.01.2017

    Ort
    Emsland

    Beiträge
    2.732

    Danke
    Danke gesagt 61   Danke erhalten 38

    #11

    Standard

    Also ich hatte schon einen R7 1700x wo alle Speichertests ohne Fehler durchliefen, aber Rosetta nicht.
    Beim Ryzen 2700 im gleichen System trat dieser Fehler dann nicht mehr auf.
    MfG No_Name alias trebotuet
    Zitat Zitat von shka Beitrag anzeigen
    PS: Ich gehe davon aus, dass du uns keine der Lösung dienlichen Hinweise aus dem Meldungs-Log verschweigst, nur um den Schwierigkeitsgrad der Lösungsfindung künstlich zu erhöhen.
    Der Rechenknecht . . . . . . . . . Stats . . . . . . . . . Badges

  12. Avatar von bossmaniac
    Titel
    Senior Member

    Bewertung

    Registriert am
    16.06.2012

    Beiträge
    393

    Danke
    Danke gesagt 0   Danke erhalten 3

    #12

    Standard

    Bei mir sind auffällig viele Rosetta mini v3.78 mit "Abgebrochen durch Server" als Fehlerhaft gelistet.
    To bodly crunch what no man has crunched before...
    http://stats.free-dc.org/cpidtagb.ph...heme=14&cols=3

  13. Avatar von No_Name
    Titel
    ist hier zu Hause

    Bewertung

    Registriert am
    27.01.2017

    Ort
    Emsland

    Beiträge
    2.732

    Danke
    Danke gesagt 61   Danke erhalten 38

    #13

    Standard

    Ich hatte sie, bevor die Serie abgebrochen wurde. Alle nach max. 60 Sekunden Berechnungsfehler.
    MfG No_Name alias trebotuet
    Zitat Zitat von shka Beitrag anzeigen
    PS: Ich gehe davon aus, dass du uns keine der Lösung dienlichen Hinweise aus dem Meldungs-Log verschweigst, nur um den Schwierigkeitsgrad der Lösungsfindung künstlich zu erhöhen.
    Der Rechenknecht . . . . . . . . . Stats . . . . . . . . . Badges

  14. Avatar von Rainer Baumeister
    Titel
    Gold Member

    Bewertung

    Registriert am
    04.07.2007

    Ort
    Hagen/Westfalen

    Beiträge
    1.886

    Danke
    Danke gesagt 78   Danke erhalten 96

    #14

    Standard

    Moin Walli,
    Danke für die Rückmeldung.

    Aktuell läuft der 1700 unter win10pro ohne Probs.
    Es gab ja schon vor geraumer Zeit mal das Problem mit Rosetta unter Linux. Bei Win noch nie ein Probs.
    Das Brett/RAM und CPU ist von J.Z: zusammengestellt/geschraubt, nur vom feinsten..
    Wenn sich einer dort auskennt, dann Jörg.
    Der RAM ist ein 3200er, der in der Tat mit 2999 läuft.

    Ab heute Abend saust dann auch mein 3700x unter Mint 19.3
    Denn hatte mir WCG leider bei einem Rosetta-Mangel zugeschüttet.

    Und nun weiter Power:
    Dialog aus dem Film: AK, drei mal Wahnsinnige. LI: A l l e s was drin ist...

    Gruß Rainer
    Ryzen 3700X mit RTX2070 (440.82) mit Mint-Tricia auf Asrock X470 Taichi mit 2x 16GB 3200
    Ryzen 1700 mit GTX1070ti (440.82) mit Mint-Tricia auf Asrock X370 Taichi mit 2x 16GB 2933
    Laptop i5 2430M Win7/64 Home und
    4x Odroid XU4 mit Android, sowie Handys und Tablet

  15. Avatar von walli
    Titel
    Full Member

    Bewertung

    Registriert am
    12.06.2016

    Ort
    Bochum

    Beiträge
    198

    Danke
    Danke gesagt 3   Danke erhalten 5

    #15

    Standard

    Hi Rainer,

    oh, da kennt noch jemand J.Z. . Aber ich sehe gerade, der ist von Dir ja auch gar nicht mal so weit weg... Ich kenne ihn nur durch Schleichwerbung... .

    Viele Grüße

    walli

Ähnliche Themen

  1. Wo sind die WU's denn?
    Von BlueUniverse im Forum Rosetta@home
    Antworten: 11
    Letzter Beitrag: 24.03.2014, 16:50
  2. 12 sind noch on
    Von XSmeagolX im Forum Das Hauptforum
    Antworten: 0
    Letzter Beitrag: 01.09.2010, 23:23
  3. Wer sind die?
    Von Superbeowulf im Forum Das Hauptforum
    Antworten: 4
    Letzter Beitrag: 06.10.2008, 08:53
  4. wir sind die Nummer 1 - wir sind SETI.Germany
    Von Christopher K. im Forum Das Hauptforum
    Antworten: 10
    Letzter Beitrag: 17.01.2008, 17:03
  5. Wo sind die Statistiken?
    Von Erwin Schlonz im Forum Das Hauptforum
    Antworten: 4
    Letzter Beitrag: 07.08.2007, 20:33

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  
Single Sign On provided by vBSSO