Bessere Sequenzanalysen bei Genen und Proteinen

Vorlesen

Um noch unbekannte Funktion menschlicher oder tierischer Gene zu identifzieren, nutzen Forscher Vergleiche mit bereits bekannten DNA-Sequenzen in Datenbanken. Jetzt ist es Bioinformatikern gelungen, ein Verfahren zu entwickeln, das diese Datenbanksuche bei gleicher Geschwindigkeit deutlich empfindlicher macht. Dadurch lassen sich verwandte Gen- und Proteinsequenzen mit größerer Genauigkeit aufspüren. Die zugrunde liegende Idee lässt sich zudem vielseitig für alle Arten von Sequenzanalysen einsetzen. Die neue Methode wurde in der Fachzeitschrift „Proceedings of the National Academy of Sciences“ (PNAS) vorgestellt.

{1l}

Bei Genen wie auch Proteinen gilt: Die Funktion beruht in erster Linie auf der Sequenz, der Abfolge der Bausteine. Ähnlich aufgebaute Gene besitzen demnach auch häufig eine entsprechende Funktion. Dies gilt in gewissem Grade auch für Proteine, bei denen aber noch die dreidimensionale Struktur, in die sie sich

falten und die sich nicht ohne Weiteres aus ihrer Sequenz ableiten lässt, eine entscheidende Rolle spielt. Ähnliche Sequenzen – zumindest in Schlüsselbereichen – lassen aber auf eine Verwandtschaft schließen und legen damit ähnliche Funktionen nahe.

Algorithmen durchkämmen Datenbanken

Die Sequenzen und Funktionen von Genen wie auch Proteinen werden daher in Datenbanken gespeichert, die Wissenschaftler auf der ganzen Welt zum Vergleich mit neuen Daten nutzen. Doch selbst die besten und am häufigsten genutzten Algorithmen wie etwa BLAST (Basic Local Alignment Search Tool) verwenden

bestimmte Vereinfachungen, um eine effiziente Suche in den riesigen Datenmengen überhaupt zu ermöglichen.Schließlich muss BLAST die von einem Forscher eingegebene Sequenz – den

Buchstabencode, der die Abfolge der DNA-Bausteine oder der Aminosäuren beschreibt – mit sämtlichen Sequenzen in der Datenbank in wenigen Minuten vergleichen können.

Dabei bewerten die Suchprogramme die Ähnlichkeit der Sequenzen, indem diese so untereinander angeordnet werden, dass sich möglichst ähnliche Aminosäuren in der gleichen Spalte dieses sogenannten Alignments befinden. Die Berechnung der Ähnlichkeit erfolgt dann Aminosäure für Aminosäure, wobei berücksichtigt wird, wie gut zwei Aminosäuren ohne nachteilige Folgen gegeneinander austauschbar

sind. Denn manche dieser Proteinbausteine sind sich in ihren Eigenschaften ähnlich, sodass ihr Austausch in einem Protein oft keinen Effekt auf dessen Funktion hat.

Bisher nur isolierte Sequenzen verglichen

BLAST ist seit seiner Entwicklung 1990 das wichtigste Instrument der Sequenzsuche und wird weltweit rund 500.000 Mal am Tag aufgerufen.Doch das Programm ist noch lange nicht optimal. So beachtet es bei der

Bewertung der Ähnlichkeit zweier Aminosäuren nicht deren Kontext, also die benachbarten Aminosäuren. Johannes Söding und Andreas Biegert vom Genzentrum München und dem Exzellenzcluster „Center for Integrated Protein Science Munich (CIPSM)“ der LMU haben nun ein Verfahren entwickelt, das die Ähnlichkeitssuche deutlich verbessert: Ihr sogenanntes kontext-spezifisches BLAST, CS-BLAST, kann bei gleicher Suchgeschwindigkeit doppelt so viele entfernte „Verwandte“ von Proteinen aufspüren wie bisher.

Kontext entscheidend

Um die Ähnlichkeit einer Aminosäure mit den Referenzdaten zu bestimmen, wird bei CS-BLAST auch der Sequenzkontext jeder Aminosäure in Form von sechs linken und sechs rechten Nachbarn in die Analyse mit einbezogen. „Die Idee ist, dass der Kontext sehr viel darüber aussagt, als wie ähnlich zwei Aminosäuren

zu bewerten sind“, erläutert Söding, der die Arbeitsgruppe „Protein Bioinformatics and Computational Biology“ am Genzentrum München leitet. „So gibt es beispielsweise bei Proteinen gefaltete und ungefaltete Bereiche. In einem ungefalteten Bereich kann etwa die Aminosäure Valin oft ohne nachteiligen Effekt in die anderen 19 Aminosäuren mutieren. In einem gefaltenen Bereich geht sie dagegen mit hoher Wahrscheinlichkeit in Aminosäuren über, die ebenfalls hydrophob, also wasserabstoßend, sind.“

Dass die neue Methode trotz besserer Empfindlichkeit gleich schnell ist, erklärt der Forscher damit, dass die Sequenzsuche in zwei Schritten erfolgt: „Sowohl beim herkömmlichen BLAST als auch bei unserer Methode wird zunächst eine Suchmatrix berechnet“, erklärt Söding. „Dieser Schritt ist bei uns zwar aufwendiger, aber mit einer Sekunde immer noch sehr schnell. Erst der zweite Schritt, die Datenbanksuche mithilfe der Suchmatrix, nimmt viel Zeit in Anspruch – und dieser Schritt ist bei beiden Ansätzen gleich.“

Vergleich ganzer Abschnitte geplant

In Zukunft wollen die Biowissenschaftler den neu entwickelten Algorithmus auch auf genomische Alignments anwenden, bei denen nicht nur einzelne Gene, sondern ganze Abschnitte des Erbguts verglichen werden. „Ähnlich wie bei Proteinen gibt es in der DNA bestimmte Schlüsselstellen, die besonders wichtige

Funktionen erfüllen“, erläutert Söding. „Diese auch für das tiefere Verständnis vieler Krankheiten wichtigen regulatorischen Bereiche kann man identifizieren, wenn man das menschliche Genom denen von anderen Säugetieren gegenüberstellt.“

Durch eine kontext-spezifische Methodik hoffen die LMU-Forscher, die Qualität solcher genomischer Aligments und damit die Identifikation regulatorischer Bereiche wesentlich zu verbessern. „Wir glauben, dass sich unsere Methode im gesamten Bereich der biologischen Sequenzanalyse durchsetzen könnte“, schließt Söding.

(Universität München, 25.02.2009 – NPO)

25. Februar 2009

vorherige Meldung

nächste Meldung

Bessere Sequenzanalysen bei Genen und Proteinen

Algorithmus verbessert Trefferquote in Gendatenbanken

Algorithmen durchkämmen Datenbanken

Bisher nur isolierte Sequenzen verglichen

Kontext entscheidend

Vergleich ganzer Abschnitte geplant

In den Schlagzeilen

News des Tages

Diaschauen zum Thema

Dossiers zum Thema

Bücher zum Thema

Top-Clicks der Woche

Neue fossile Riesenschlange entdeckt

Wie schmeckte der Wein der Römer?

Dünnste Goldschicht der Welt erzeugt

Rekord-Ausbruch überrascht Astronomen

Venus verliert Kohlenstoff-Ionen

Social Media

Partner

Service