PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Massive Probleme mit Rosetta



jedion
24.04.2020, 07:23
Ich habe Rosetta seit einiger Zeit bei mir crunchen lassen. Windows 10, Boinc 7.16.5 / BoncTasks 1.78,
Das Ganze auf einem AMD 16-Kerner / 32 Tasks, auf welchem sich Rosetta die Recourcen mit World Comunity Grid zu 50% teilt. Zudem cruncht auf dem System auch noch die Graka.
Zwei Wochen ging alles gut, dann kam es zu temporären Sytsemstillständen. Das sind Zeiten in denen der Rechner auf keinerlei Eingaben reagiert und laufende Programme, wie z.B. Videostreaming anfängt zu ruckeln. Diese Stillstände dauerten mehrere Sekunden bin hin zu einer halben Minute. Während dieser Zeit flackert die Festplatten LED heftig. Im Taskmanager ist jedoch keinerlei Aktivität auf dem Datenträger (M.2 PCIE SSD) sichtbar. Sichtbar ist jedoch das während dieser 'Pausen' die CPU-Auslastung deutlich einbricht. Im Laufe einiger Tage häuften sich diese Unterbrechungen derart das ein vernünftiges Arbeiten mit dem Rechner nicht mehr möglich war.
Nachdem ich die Berechnungen für Rosetta eingestellt hatte war dieses Problem behoben,

Ist dieses Problem bekannt? Hat jemand eine Lösung?

Auf der Projektseite von Rosetta kann ich keine einzelnen Projekte auswählen oder ausschliessen. Ich muss also cruncen was an WU's kommt ?

nexiagsi16v
24.04.2020, 08:43
Rechnest du auf auf alle n Threads und arbeitest dann noch gleichzeitig am Rechner? Rosetta brauch stellenweise viel RAM (zwischen 500MB bis nun fast 4GB pro WU). Dazu dürfte es auch bissel zu Temperaturprobleme kommen? Wie sieht es da aus?
Also wenn du am Rechner arbeitest, würde ich auf maximal 75% der CPU stellen.

jedion
24.04.2020, 09:09
Hallo Norman, ich rechne immer auf allen Threads. Der AMD Ryzen 9 3950X ist ein Traum von einer CPU. Rechne ich für andere Projekte, wie zum Beispiel World Comunity Grid habe ich keinerlei Probleme bei der täglichen Arbeit unter voller Last.
Einizig wenn ich zocken möchte nehme ich 4 Kerne und die Graka raus. Auch Speicherprobleme gibt es nicht. Das System hat 64 GB RAM, der war noch nie am Anschlag, obwohl oft auch noch eine VM mit läuft.
Nachfolgende Werte unter voller Last gemessen. Das Sytem ist ein Selbstbau, für ausreichende Belüftung ist gesorgt. An all dem kann es also nicht liegen.
6740

nexiagsi16v
24.04.2020, 09:29
Das mag sein das es bei WCG keine Problme gibt, aber jedes Projekt hat so seine Eigenheiten. Ich glaube mal gelesen zuhaben Rosetta greift viel auf die Festplatte zu und bei sovielen WUs plus Stream usw. kommt es auch mal zu einem Engpass beim händeln dieser Zugriffe. Auch gibt es jetzt komplexere RosettaWUs, die halt bis zu 4GB Ram brauchen. Wahrscheinlich haben sie dann auch mehr Schreib/Leszugriffe.
Die 75°C der CPU steigen bestimmt noch an, wenn du zusätzlich noch dran arbeitest...das Gleiche bei der GPU. Schau dir mal die Werte an, wärend du noch ein Stream verfolgst. Bei 85°C CPU-Temp spätestens, wird der Rechner gedrosselt.

Ich rate dir, probiert bissel rum mal nur mit 99% und dann immer einen Thread weniger, ob es sich bessert.

jedion
24.04.2020, 14:02
Das ist bei der momentanen Raumtemperatur die Maximaltemperatur der CPU. Sie drosselt erst bei 90°C. RAM und Plattentransferrate sind im Taskmanager unauffällig/unkritisch. Einzig das heftige flackern der Festplattenled hatte mich irritiert.
Ist ja auch nicht schlimm, ich muß ja nicht für Projekte Rechnen die bei mir Probleme verursachen. Ich dachte nur ich frag mal hier nach bevor ich Rosetta abmelde. Meine Frau wollte gerne das wir dafür crunchen weil teilweise auch für Corona gerechnet wird. In 2 Tagen wird mein 8-Kerner frei. Dann probiere ich es auf dem noch einmal aus und schaue ob es sich dort ähnlich verhält.
Ich hatte schon einmal 4 Kerne und die Graka angehalten, Es hat aber nichts geändert. Noch einmal: Rosetta ist nicht auf allen Kernen gelaufen, es hatte sich die Resourchen mit WCG geteilt.
Was mir auch noch aufgefallen war ist das am Anfang sehr oft etliche WU's vom Taskmanager als Kritisch eingestuft wurden. Die kamen aber auch mit einer Deadline von 4 Tagen rein. Das legte sich dann aber nach einigen Tagen obwohl die Deadline der WU's immer noch so eng ist.

- - - Aktualisiert - - -

6741

taurec
24.04.2020, 14:32
Naja, du cruncht auf allen Threads + GPU und dann VideoStreaming noch dazu. Da streiken meine Rechner auch.
Wenn du nur cruncht: CPU nicht auf allen Threads, 99% im BM einstellen, damit die GPU auch was abbekommt. Was rechnest du auf GPU?

jedion
24.04.2020, 15:18
Taurec mein Rechner streikt nicht, nur Rosetta macht Probleme. Ich benutze den BM nicht, lediglich der Client läuft. Auf der GPU läuft GPUGRID.
Die GPU WU's nehmen sich automatisch ihren Anteil an einem Prozessorkern. Dafür muss ich nichts einstellen.

Roadranner
24.04.2020, 16:27
Taurec mein Rechner streikt nicht, nur Rosetta macht Probleme. Ich benutze den BM nicht, lediglich der Client läuft. Auf der GPU läuft GPUGRID.
Die GPU WU's nehmen sich automatisch ihren Anteil an einem Prozessorkern. Dafür muss ich nichts einstellen.

Du solltest es aber besser einstellen! Reserviere einen Kern für die GPU WUs: Entweder reduzierst Du die verfügbaren CPU-Kerne oder Du gibst den GPUGrid WUs einen CPU-Kern in der App_Config.

nexiagsi16v
24.04.2020, 18:44
Er hatte ja schonmal die Anzahl der Kerne um 4 reduziert, ohne das es besser wurde. Daher glaube ich, dass selbst dann der Traffic zugroß ist und der Speicherkontroller das nicht geregelt bekommt. Meine Meinung.

Stiwi
24.04.2020, 19:21
Rosetta lastet festplatten auch gut aus aufgrund vieler schreibzugriffe vllt ist das nen flaschenhals?

AxelS
24.04.2020, 20:31
jedion hat keine Festplatte, er hat 'ne SSD mit M.2 Schnittstelle.

Ganz Generell:
Man sollte bei Windows nicht vergessen. Lese-/Schreib-Zugriffe beim Swappen mit der Auslagerungsdatei kann ein System auch ganz schön ausbremsen. Gerade bei großen Arbeitspeichergrößen wird entsprechend auch eine große Auslagerungsdatei angelegt. Wenn da viele Daten umgeschichtet werden, ja da wird eine Flashdisk sehr schnell zum Flaschenhals. Es ist leider so bei Windows (meine Meinung).

@jedion: Wieviel MB ist für den Virtuellen Arbeitspeicher in den Leistungsoptionen eingestellt?

jedion
25.04.2020, 06:18
So ich habe Rosetta jetzt mal auf einem anderen PC laufen und werde dort beobachten wie es sich verhält.
Die Kiste läuft auch unter Windows 10. Es ist ein Intel i9-9900K mit 8 Kernen / 16 Threads, 32 GB RAM und ebenfalls einer M.2 als Platte. Das System läuft ausschließlich für Boinc. Allerdimgs rechnet es neben Rosetta noch mit 2 Graka's für GPUGRID. Was mir sofort aufgefallen war ist das sich Rosetta gleich ca. die Hälfte des verfügbaren RAM's weg zieht.
Zu Euren Anmerkungen möchte ich noch folgendes zu bedenken geben:
Meines Wissens nach wird die Auslagerungsdatei erst dann aktiv zum swappen genutzt wenn der Arbeitsspeicher an seine Grenzen kommt, was auf meinen Systemen nicht der Fall ist.
Wenn ich Boinc so einstelle das z.B. 2 Kerne nicht genuzt werden gilt das Für alle Projekte die auf diesem System laufen, auch für jene die auf der GPU rechnen. Die so frei gehaltenen Prozessorkerne wären dann für meine Nutzung frei und auch die GPU Projekte würden sie nicht nutzen. Natürlich kann ich auch im Projekt einstellen das nicht alle Kerne genutzt werden sollen, aber das ist dann für alle Rechner auf meinem Account gültig. Dies ist für mich wenig praktikabel, da ich im Fall von Rosetta 3 PC's nutze. Einen 4- einen 8- und einen 16- Kerner. Im Projekt selbst kann die Nutzung der Prozessoren aber nur prozentual eingestellt werden was dann auf jedem meiner Systeme unterschiedliche Auswirkungen hätte.

@AxcelS: Ich verstehe deine Frage nicht. Wenn Du die Speicherreservierung meiner VM's meinst ist das unterschiedlich, je nach dem System welches auf ihnen läuft. Das ist aber irrelevant, da ich die Nutzung meines gesamten Arbeitsspeichers permanent im Blick habe und es dort nicht zu Engpässen kommt.

Just for fun habe ich auch schon einmal ausprobiert was passiert wenn ich BOINC auf einem virtuellem Linux-System laufen lasse dessen Host ebenfalls mit Boinc unter voller last rechnet. Es funktionmiert einwandfrei, Lediglich die prozentuale Auslastung einiger WU's geht auf dem Host dann entsprechent zurück (bis auf 70%) Für meine Vm's nutze ich VMware und nicht etwa dieses Oracle-Zeugs.

nexiagsi16v
25.04.2020, 08:08
Wenn ich Boinc so einstelle das z.B. 2 Kerne nicht genuzt werden gilt das Für alle Projekte die auf diesem System laufen, auch für jene die auf der GPU rechnen. Die so frei gehaltenen Prozessorkerne wären dann für meine Nutzung frei und auch die GPU Projekte würden sie nicht nutzen.

Das ist nicht bei allen Projekten so. Angenommen man hat 16 Threads + 1GPU und läßt bei 100% rechnen. Dann gibt es GPU-Projekte, die reservieren sich einen Kern für die GPU Anwendung. Somit laufen auf dem System 15 CPU WUs + 1 GPU WU. Andere Projekte machen das nicht. Dort laufen dann insgesammt 17 WUs. Für solche Projekte lohnt es sich dann, einen Thread frei zulassen, also 99% einzustellen. Dieser frei Thread ist dann nicht wirklich frei, sondern wird der GPU WU zugewiesen. Somit sind dann doch alle Threads am Crunchen.
Hat man 2 GPUs verbaut und die GPU-Anwendung braucht unter 0.5 CPU-Anteil, langt der eine "freie" Thread dann für die 2 GPUs.
Warum nutzt du nicht den BM? Da könntest du sehr gut für jeden einzelnen Rechner einstellen was die %-Nutzung angeht.

AxelS
25.04.2020, 08:32
@nexiagi16v

Er braucht den Boinc-Manager nicht, da er BoincTasks nutzt

@jedion
Mit Virtuellen Arbeitspeicher meine ich die Swap-Einstellung von Windows und nicht von irgend einer VM. Ich wußte bis gestern ja nicht welche VM Programme Du nutzst ;)

Ich bin DC seit weit mehr als 10 Jahren dabei, habe die Einführung des BOINC bei SETI miterlebt. Habe Erfahrungen gesammelt mit WinXP und Win7.

WinXP war auf einmal viel flotter als die Auslagerungsdatei auf 0 MB gesetzt hatte. So gut wie keinerlei Verzögerungen mehr.
Das System damals war ein C2Q660 mit 3GB RAM.

Als ich 2012 einen neuen Rechner mit Win7 aufgbaut habe mußte ich feststellen, Windows fängt bei einer Speicherbelegung ab 8 GB an zu swappen, also bei Auslastung ab 50%. Insgesamt hat das System 16 GB Arbeitsspeicher. Also habe ich Auslagerungsdatei auch da wieder auf 0 MB gesetzt.

Im Januar wurde der Rechner von mir von Win7 auf Win10 ge-upgraded.

Dieses Jahr habe im Februar und März Rosetta gerechnet und nebenbei habe ich am Rechner noch ein Java Programm bedient, welches selbst einfach nur mal zwischen 2 bis 4GB RAM belegt. Vom BOINC habe ich so gut nichts bemerkt.

Da Du die Auslastung des Arbeitsspeicher im Blick hast, teste mal Dein System ohne die Auslagerungsdatei von Windows. Bei 32 GB kann man sich dies auch erlauben (finde ich).

Vermutlich wirst Du einen positiven Effekt feststellen bei Deiner SSD.

jedion
25.04.2020, 08:49
Hallo Norman,
ich butze BoincTasks weil ich Boinc auf ingesamt 8 Rechnern laufen lasse. Das ist einfach viel übersichtlicher. Auch hier sind alle Einstellungen möglich.

6743

- - - Aktualisiert - - -

@ AxelS. Mache ich. Vielen Dank für den Tipp. Was ist ein DC ?
Das ständige flackern der Festpaltten LED könnte tatsächlich dort seine Ursache haben.
Windows ist halt nicht das beste Betriebssystem aber unter Linux bekomme ich die GPU's, magels Treibersupport nicht ans rechnen.
Ich hatte vor 9 Jahren angefangen mit Seti zu crunchen, es dann aber für lange Jahre eingestellt. Damals hatte ich nur einen Rechner und auf dem hatte mich Boinc seinerzeit zu stark eingeschränkt.

AxelS
25.04.2020, 09:42
DC steht für Distributed Computing, Weltweit verteiltes Rechnen.

Rainer Baumeister
25.04.2020, 10:03
Moin jedion, ich habe mir alle Mails durchgelesen, aber nicht gelesen welche Linux-Variante du nutzt.
Wäre vielleicht hilfreich, das dir dann ein User mit deinem System bei genaueren Angaben helfen könnte.
Ich bin ein alter Sack und kenne mich so leidlich bei Mint aus. Dort ist die Einbindung der GPU sehr einfach.

Hatte vorher auch andere probiert. War wegen der sogenannten "freien" Treiber für mich nur schwer zu machbar: gelöscht.

Da steht sich Linux wegen der proprietären Gedanken selbst im Weg. Meine Meinung.

Gerade die Handhabe von Linux, das der RAM das schnellste im Rechner ist, wird eine Auslagerungsdatei/Swap nur bei knappen Speicher genutzt.
Bei deinen 64GB oder 2GB pro Projekt wohl kaum nötig.

Gruß Rainer

AxelS
25.04.2020, 10:19
Auch ich nutze wie Rainer Linux Mint auf meinen Linux Kisten. Dort ist die Umstellung des NVidia Treiber nouveau auf den proprietären Treiber von NVIDIA ganz einfach.

Allerdings zum Linux-Antesten in VM funktioniert dies nicht. Das geht nur auf einer realen Maschine.

Handicap SG-FC
25.04.2020, 11:31
Also ich nutze BT und verwalte damit 4 Rechner.

Mit den % Einstellungen arbeite ich überhaupt nicht, da kommen manchmal auch komische Sachen bei raus.

Je nach Rechner und Projekt regel ich das per APP.

Beispiel 2 Rechner beide gleich Cpu 8 Kerne, ein Rechner 2 Grakas der andere 3 Grakas.

Also auf einem Rechner Rosetta auf 6 Kerne und den zweiten auf 5 Kerne, der Rest ist dann frei für Einstein.

Soll Seti auf den Grakas laufen kann man anpassen, je nach Auslastung der Graka und Typ geht dann evtl. auch 6 / 6 usw.

So habe ich stets volle Kontrolle.

Einzige Ausnahme ist wenn man mit Instanzen rechnet, also auf dem normalen Client CPU und auf der Instanz GPU. Das kann schiefgehen oder BT kann das nicht richtig darstellen.

Mus sich noch ergründen

LG

jedion
25.04.2020, 13:05
@Rainer BM: Ich hatte es mit Unbuntu versucht, dazu gab es auch einen Thread bzgl. der Grakikarten unterstützung. Ich lasse die Kiste (den Intel-8 Kerner) jetzt erst mal weiter unter Windows laufen. Evtl. steht da denmächst auch noch ein Systemwechsel an. Ich spiele mit dem Gedanken da auch einen AMD 16 Kerner rein zu bauen und den 8 Kerner samt Mainboard dann gegen den 4 Kerner im Rechner meiner Frau auszutauschen. Der 4 Kerner samt Mainboard und DDR-3 Speicher bliebe dann übrig, irgendwie traurig aber was soll man machen?

... und.... ich bin auch ein alter Sack :)

Die Auslagerungsdatei von Windows habe ich jetzt auf meinen beiden PC's abgeschaltet. Hätte ich eigentlich auch selber drauf kommen können ;)

Roadranner
25.04.2020, 13:17
Das Problem mit den Festplattenzugriffen hatte ich bei nanoHUB@home unter Windows; die Auslastung war fast dauerhaft bei 100%. Ich habe mir das Programm PrimoCache geholt, einen 8GB großen Cache eingerichtet, und damit war die Plattenlast bei maximal 1% und die LED leuchtete nur noch sporadisch.

jedion
25.04.2020, 18:17
@ Handicap SG-FC

BT?
SETI ??? Villeicht solltest Du mal nach deinen SETI WU's schauen. Das Projekt wurde zwischenzeitlich beendet :rolleyes1: