Aktionen

World Community Grid/Genome Comparison

Aus SETI.Germany Wiki

Das Genome Comparison-Projekt wurde innerhalb des World Community Grid durchgeführt. Das Projekt wurde wissenschaftlich geleitet durch das Laboratory for Functional Genomics and Bioinformatics at the Oswaldo Cruz Institute (IOC), Fundacao Oswaldo Cruz (FIOCRUZ), Brasilien.

Genome Comparison

(Genom-Vergleich)

Genome.jpg

Projektstatus und Ergebnisse

Das Projekt wurde zwischen dem 17.11.2006 und dem 21.07.2007 auf dem World Community Grid durchgeführt. Wesentliches Ergebnis des Projektes ist eine der umfangreichsten Proteindatenbanken der Welt, die gemeinfrei unter folgendem Link verfügbar ist: ProteinWorldDB.org. Die Suchfunktionen der Datenbank umfassen die Abfragen nach Proteindomänen, Annotationen, Identifiern und ontologischen Begriffe.


Mission

Das Ziel des Projektes war die Erstellung der weltweit ersten Datenbank von Proteinsequenzen, die paarweise miteinander verglichen wurden. Es wurden Proteinsequenzen aus 3774 Organismen (Mensch, Tiere, Pflanzen, Viren etc.) ‚alle gegen alle‘ verglichen. Diese Datenbank dient als Referenz für die weitere Annotation der enthaltenen Proteinsequenzen. Die Sequenzierung weiterer entdeckter Genome und ihres paarweisen Vergleichs kann der Datenbank hinzugefügt werden.


Bedeutung

Die Vergleichsinformationen über Genome helfen, das Verständnis biologischer Systeme deutlich zu verbessern. Beispielsweise kann die Interaktion des Menschen mit seiner biologischen Umwelt auf Ebene der Genome deutlich besser verstanden werden. Außerdem können die Erkenntnisse des umfangreichen Genom-Vergleichs eine kritische Rolle bei der Entwicklung besserer Impfstoffe, Medikamente und Diagnoseverfahren spielen.


Ansatz

In der ersten Projektphase wurden mehr als 2,8 Millionen Genome von 3774 Organismen miteinander verglichen. Darunter befanden sich mehr als 400 Organismen, deren Genomsequenzen bereits komplett entschlüsselt wurden. Die meisten der analysierten Proteinsequenzen wurden bereits seit den sechziger Jahren des vergangenen Jahrhunderts mit Hilfe von Computern hinsichtlich ihres genetischen Codes entschlüsselt und sind ebenfalls in öffentlichen Datenbanken verfügbar. Für die vergleichende Genom-Analyse wurden die Sequenzen in Blöcke zu je 2000 Sequenzen zusammengefasst und es wurden mehr als eine Million Block-zu-Block-Analysen durchgeführt.

In der zweiten Projektphase wurden 393.999 Proteinsequenzen aus neu veröffentlichten Datenbanken hinzugefügt. Außerdem wurde ein voll aktualisierter Referenzdatensatz hinzugefügt (SwissProt mit 254.609 Proteinsequenzen). Dieser Datensatz dient der ergänzenden Annotation und der gegenseitigen Referenzierung.

In der dritten Projektphase wurde ein Datensatz aus etwas 3 Millionen Proteinsequenzen analysiert, der aus einem Rahmenwerk abgeleitet wurde, welches noch nicht rechnerisch erfasst war. Ziel dieser Phase war es, weitere Sequenzen zu entdecken und rechnerisch zu erfassen.

Single Sign On provided by vBSSO