• Schalter wissen.de
  • Schalter wissenschaft
  • Schalter scinexx
  • Schalter scienceblogs
  • Schalter damals
  • Schalter natur
Scinexx-Logo
Scinexx-Claim
Facebook-Claim
Google+ Logo
Twitter-Logo
YouTube-Logo
Feedburner Logo
Sonntag, 29.05.2016
Hintergrund Farbverlauf Facebook-Leiste Facebook-Leiste Facebook-Leiste
Scinexx-Logo Facebook-Leiste

Big Data: Genomik als neuer Datenriese

Genforschung könnte schon in zehn Jahren mehrere Exabytes an Daten jährlich generieren

Datenexplosion: Die Genforschung könnte bald der größte Mitspieler im Big Data-Ozean werden. Denn DNA-Sequenzierungen von Pflanzen, Tieren und Menschen nehmen rapide zu und mit ihnen die anfallende Datenmenge. Schon in zehn Jahren könnten sie mehrere Exabyte jährlich umfassen – und Youtube und andere Datenriesen weit hinter sich lassen, wie die Forscher im Fachmagazin "PloS Biology" berichten. Es sei daher dringend nötig, sich auf diese Herausforderung technisch vorzubereiten.
Die Genforschung erzeugt schon jetzt enorme Datenmengen - udn es werden immer mehr.

Die Genforschung erzeugt schon jetzt enorme Datenmengen - udn es werden immer mehr.

Wenn es um die schiere Menge an anfallenden Daten geht, dann liegen heute Youtube, Twitter und in der Forschung Astronomie und Teilchenphysik weit vorne. Allein auf Youtube werden jede Minute 300 Stunden Film hochgeladen, im Jahr müssen bis zu einem Exabyte an neuen Daten gespeichert werden – das entspricht einer Trillion Bytes oder einer Million Terabytes.

Explosion von DNA-Sequenzierungen


Doch bereits in zehn Jahren könnte ein neuer Mitspieler im Big Data-Bereich alle bisherigen überflügeln: die Genforschung. "Weil die Sequenzier-Technologie immer besser wird und die Kosten sinken, erwarten wir eine Explosion von DNA-Sequenzierungen, die eine gewaltige Flut von Daten erzeugen werden", sagt Studienleiter Gene Robinson von der University of Illinois in Urbana-Champaign.

Sequenzierroboter in einem US-Labor

Sequenzierroboter in einem US-Labor

Schon jetzt verdoppelt sich die Menge der genetischen Daten alle sieben Monate, wie die Forscher berichten. Und dieser Trend wird sich fortsetzen. Denn allein in der Biologie haben mehrere Projekte das Ziel, das Erbgut möglichst aller bekannten Tier- und Pflanzenarten zu entschlüsseln. "Bis 2025 wird es nach unseren Schätzungen mindestens 2,5 Millionen komplett sequenzierte Genome von tierischen und pflanzlichen Organismen geben", so die Wissenschaftler. Mehrere Millionen Genome von Mikroben kommen da noch dazu.


Bis zu 40 Exabyte an Gendaten – pro Jahr


Ein noch größerer Wachstumsmarkt aber sind DNA-Analysen beim Menschen. Schon jetzt kann jeder Mensch sein Erbgut auf bestimmte Gene durchforsten lassen und auch Komplett-Sequenzierungen werden immer günstiger. Mehrere Länder, darunter China, die USA, Großbritannien und Saudi-Arabien haben bereits angekündigt, die DNA von zwischen 100.000 und einer Million ihrer Bürger entschlüsseln und für Forschungszwecke erfassen zu wollen.

"Bis 2025 könnte daher nach unseren Schätzungen zwischen 120 Millionen und zwei Milliarden menschliche Genome sequenziert worden sein – das entspricht einem Wachstum von vier bis fünf Größenordnungen in zehn Jahren", so die Forscher. Das aber bedeutet, dass 2025 jedes Jahr zwischen zwei und 40 Exabytes an neuen Gendaten anfallen könnten – allein für die menschlichen Genome. "Das übertrifft bei weitem das Wachstum der heutigen großen Datenproduzenten wie Youtube oder die Astronomie."

Die Kosten für eine Sequenzierung sind rapide gefallen

Die Kosten für eine Sequenzierung sind rapide gefallen

Clouds für die Gendaten


Und die reinen DNA-Sequenzen sind nicht noch nicht alles: "Die Sequenzdaten müssen mit Hilfe von komplexen und oft computertechnisch anspruchsvollen Algorithmen analysiert werden", erklärt Koautor Saurabh Sinha von der University of Illinois in Urbana-Champaign. Erst so lassen sich biologisch relevante Muster in den Gendaten finden und Vergleiche anstellen, die beispielsweise bei der Diagnostik von Krankheiten helfen können.

Hinzu kommt, dass die Gendaten an vielen Orten anfallen und weltweit über das Internet verteilt und abgerufen werden. Zukünftig werden daher immer mehr DNA-Daten in Clouds gespeichert werden, um den Austausch zu erleichtern. "All das macht das Ganze zu einer noch größeren Herausforderung als nur die DNA zu sequenzieren und diese Information zu speichern", so Sinha.

Ein "vierköpfiges Biest"


Angesichts dieser auf uns zukommenden Datenschwemme rufen die Forscher dringend dazu auf, die digitale Infrastruktur rechtzeitig auf diese Herausforderungen einzustellen. "Die Genomik ist ein vierköpfiges Biest", so Robinson und seine Kollegen. "Die Anforderungen in Datenaufnahme, Speicherung, Verteilung und Analyse werden zu den größten im gesamten Big Data-Bereich gehören."

Nach Ansicht der Forscher könnte die Genomik damit zu den größten computertechnischen Herausforderungen gehören, die die Menschheit bisher bewältigen musste. Denn während die Datenmengen bei Youtube und Co allmählich und im Gleichschritt mit den Fortschritten in der Datenübertragung und Speichertechnologie gewachsen sind, könnte die Genomik die technische Entwicklung überholen. "Wir brauchen dramatische Innovationen in der Computertechnologie", so Robinson. "Jetzt ist die richtige Zeit, damit zu beginnen." (PloS Biology, 2015; doi: 10.1371/journal.pbio.1002195)
(PLOS / University of Illinois, 08.07.2015 - NPO)