Gensuchmaschine spürt Proteinfabriken auf

Vorlesen

Noch ist es eine Vision: Aus den rund drei Milliarden Buchstaben des menschlichen Genoms auf Knopfdruck exakt diejenigen Abschnitte herauszufiltern, die für den Bau von Proteinen zuständig sind. Was für das menschliche Erbgut noch in der Zukunft liegt, ist Wissenschaftlern der Fraunhofer- und der Max-Planck-Gesellschaft für das Genom des Fadenwurms Caenorhabditis elegans nun gelungen: Sie können mithilfe der neuen Gensuchmaschine mSplicer mit hoher Genauigkeit proteincodierende und nicht codierende Abschnitte erkennen.

{1l}

Der einen Millimeter lange Caenorhabditis elegans gehört zu den bestuntersuchten Organismen der Welt. Sein Genom ist seit 1998 vollständig sequenziert. Dennoch ist die Annotation des Genoms, das heißt die Lokalisierung seiner Gene und die Bestimmung der entsprechenden Proteine, bei weitem noch nicht vollständig. Sie wird fortlaufend überarbeitet und vervollständigt. Ziel des Forschungsprojekts ist es, die bestehende, aber noch nicht komplett durch Experimente belegte Annotation des Fadenwurms zu verbessern.

Wie die Forscher in der Fachzeitschrift PLoS Computational Biology berichten, wählten sie dazu moderne Verfahren des maschinellen Lernens. Mit ihrer Hilfe sollten so genannte Exons und Introns – proteincodierende und nicht codierende Abschnitte – in der genetischen Information des Fadenwurms identifiziert werden. Die Ergebnisse der Forschungsarbeiten zeigen, dass Verfahren des maschinellen Lernens um 40 Prozent exaktere Ergebnisse liefern als herkömmliche Methoden und insbesondere als die zur Zeit der Experimente gültige Annotation (Wormbase WS120).

Verfahren des maschinellen Lernens können somit wesentlich zu einer Verbesserung bestehender Annotationen nicht nur bei C. elegans, sondern auch bei anderen Organismen beitragen und die korrekte Entschlüsselung genetischer Informationen erheblich beschleunigen.

Methode und Verfahren

Um ihre Ergebnisse zu belegen, gingen die Wissenschaftler in mehreren Schritten vor: Zunächst wurden die eingesetzten Algorithmen anhand bereits entschlüsselter mRNA-Sequenzen trainiert. mRNA-Moleküle (mRNA = Messenger-Ribonukleinsäure) transportieren die genetische Information der DNA und codieren die ihr entsprechenden Proteine.

Während des Trainings lernen die Algorithmen die Muster für die Übersetzung von DNA in mRNA. Diese Muster helfen, die verschiedenen Teile der Gensequenz voneinander zu unterscheiden. Dabei spielt die Erkennung der Grenzen zwischen Exons und Introns, den sogenannten Spleißstellen, eine entscheidende Rolle.

Nach einer Trainingsphase wurden die Algorithmen zur Vorhersage von fertiger mRNA aus DNA eingesetzt und die Er-gebnisse mit bestehenden Datenbanken verglichen. Mit einer Genauigkeit von bis zu 95% konnte mSplicer alle Exons und Introns korrekt vorhersagen.

Auffällig war, dass die Ergebnisse nur in bis zu 50 Prozent mit der bestehenden Annotation des Genoms von C. elegans übereinstimmten. Eine Evaluation der Wormbase Annotation Version WS 120 mithilfe von später verfügbaren Informationen (basierend auf Wormbase Version WS 150) bestätigte, dass WS 120 in 18 Prozent der untersuchten Fälle ungenau war, während von mSplicer nur zehn bis 13 Prozent der Fälle nicht exakt übersetzt wurden. Darüber hinaus belegen biologische Laborexperimente mit 20 Genen, bei denen WS 120 und mSplicer in hohem Maße voneinander abwichen, die Überlegenheit des algorithmischen Verfahrens. Es lieferte in 75 Prozent aller Fälle richtige Vorhersagen, während die bestehende Annotation in keinem der untersuchten Fälle korrekt war.

Neue Annotation von C. elegans entwickelt

Auf Grundlage der Ergebnisse wurde eine neue Annotation von C. elegans entwickelt. In einem weiteren Schritt wurde mSplicer mit zwei weiteren State-of-the-art Verfahren zur Vorhersage von Exons und Introns verglichen:

SNAP und ExonHunter. Diese Verfahren basieren auf sogenannten generativen Modellen, die versuchen, die Struktur der untersuchten Daten zu modellieren. mSplicer hingegen beruht auf diskriminativen Methoden: Der Algorithmus lernt "den Unterschied" zwischen richtigen und falschen Vorhersagen und unterscheidet sie anhand einer Trennfunktion. Je nach Auswahl der zugrundeliegenden Sequenzen erreichten SNAP und ExonHunter eine Genauigkeit bei der Vorhersage von Exons und Introns von nur 82,6 bzw. 90,2 Prozent. Die neu entwickelte Methode mSplicer kann eine Genauigkeit von 95,2 Prozent erzielen.

mSplicer wird seit 2003 im Rahmen eines Kooperationsprojekts zwischen der Fraunhofer- und der Max-Planck-Gesellschaft entwickelt.

(idw – Fraunhofer-Institut für Rechnerarchitektur und Softwaretechnik FIRST, 26.02.2007 – DLO)

26. Februar 2007

vorherige Meldung

nächste Meldung

Gensuchmaschine spürt Proteinfabriken auf

mSplicer erkennt mit hoher Genauigkeit proteincodierende Abschnitte im Genom

Methode und Verfahren

Neue Annotation von C. elegans entwickelt

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Top-Clicks der Woche

Neue fossile Riesenschlange entdeckt

Rekord-Ausbruch überrascht Astronomen

Waffentruhe eines mittelalterlichen Flaggschiffs geöffnet

37 Millionen Grad im Fusionsplasma

Wie man beim Dart gewinnt

Social Media

Partner

Service