• Schalter wissen.de
  • Schalter wissenschaft
  • Schalter scinexx
  • Schalter scienceblogs
  • Schalter damals
  • Schalter natur
Scinexx-Logo
Logo Fachmedien und Mittelstand
Scinexx-Claim
Facebook-Claim
Google+ Logo
Twitter-Logo
YouTube-Logo
Feedburner Logo
Donnerstag, 23.03.2017
Hintergrund Farbverlauf Facebook-Leiste Facebook-Leiste Facebook-Leiste
Scinexx-Logo Facebook-Leiste

Klima-Datenwust bändigen

Weltdatencenter Konferenz am Marum erfolgreich

Die Direktoren der 51 Weltdatenzentren berieten vom 07. bis 09. Mai auf der World Data Centres Konferenz 2007 über die Zukunft der größten Sammlung frei zugänglicher wissenschaftlicher Daten. Das Treffen fand am Weltdatenzentrum für Marine Umweltdaten (WDC-MARE) in Bremen statt, welches gemeinsam vom MARUM_DFG-Forschungszentrum Ozeanränder und dem Alfred-Wegener-Institut für Polar- und Meeresforschung in Bremerhaven betrieben wird.
Klimamodell

Klimamodell

Wissenschaftler brauchen und produzieren Daten in exponentiell wachsenden Mengen und immer höherer Komplexität. Beispiel Klimaforschung: Um herauszufinden, wie sich das Klima in der Zukunft entwickelt, analysieren Forscher Informationen über die Vergangenheit, über Lufttemperatur, Wassertemperatur, CO2-Gehalt, Sonneneinstrahlung, Magnetfeld, Ozeanströmungen, Eisbedeckung, die Lage der Kontinente und noch vieles mehr – diese stammen aus sehr unterschiedlichen wissenschaftlichen Richtungen. Solche trans-disziplinären Messungen kann kein einzelner Forscher zusammentragen, schon allein, weil er das nötige Fachwissen nur für einen oder wenige Teilbereiche hat. Die Weltdatenbanken bieten freien Zugriff für alle Interessierten auf Daten aus den verschiedensten Disziplinen.

50jährige Tradition


Mit Beginn des Internationalen Geophysikalischen Jahr 1957/58 richtete die Vorläuferorganisation des Internationalen Wissenschaftrates (ICSU) die Weltdatenzentren (WDC) ein. Sie sollten die Beobachtungen aus der bis dato größten wissenschaftlichen Messkampagne speichern und managen. Schon früh stiegen die Zentren auf maschinenlesbare Speichermedien um – zunächst waren dies noch Lochkarten. Heute, fünfzig Jahre nach ihrer Gründung, archivieren die weltweit verteilten Zentren Daten auf Rechnern mit enormer Speicherkapazität und Rechenleistung. Die Daten decken alle Bereiche naturwissenschaftlicher Grundlagenforschung mit Bezug auf die Erde ab.

In Deutschland gibt es mittlerweile drei Weltdatenzentren: eines für Klima in Hamburg, eines für Satellitendaten zur Atmosphäre in Oberpfaffenhofen und eben das –WCD-MARE im Land Bremen. Zurzeit befinden sich rund zwei Milliarden Datenpunkte im System des WDC-MARE, die in jeder Kombination innerhalb von Sekunden abgefragt werden können. Genau dieses Management ist es, das den größten Mehrwert der Datenzentren ausmacht.


Rasanter Datenzuwachs


„Alle zwei Jahre verdoppelt sich das Volumen des wissenschaftlichen Wissens“, erläutert Michael Diepenbroek, Leiter des WDC-MARE. „Die Explosion des Wissens geht zum Glück auch einher mit der rasanten Entwicklung der Rechner- und Speicherleistung der modernen Computer. Nur so ist ein effizientes Datenmanagement überhaupt möglich.“ Jeder, der sich in den letzten Jahren einen Rechner gekauft hat, weiß wie schnell die Größen der Festplatten bei gleich bleibenden oder sogar sinkenden Preisen gestiegen sind. Anfang der Neunziger kosteten 10 Megabyte umgerechnet ca. 250 Euro – heute erhält man dafür die 100.000-fache Menge, ein Terabyte.

Allein das WDC-Mare hat eine Kapazität von 1.200 Terrabyte. Dazu stehen 3.000 Bändern mit 50 bis 400 Gigabyte Größe bereit. Und all das wird nicht nur einmal, sondern gleich doppelt in verschiedenen Gebäuden aufbewahrt, um gegen alle Eventualitäten gewappnet zu sein. Insgesamt bedeutet diese Datenexplosion aber, dass das Management einen immer größeren Anteil an der wissenschaftlichen Arbeit ausmacht. „Um eine Publikation mit im Schnitt zehn Datensätzen in unser System einzupflegen, braucht ein Wissenschaftler etwa einen halben Tag“, schätzt Diepenbroek den Arbeitsaufwand ein.

Komplexe Klimamodelle


Die Anforderungen an die unterschiedlichen Datenzentren sind dabei sehr verschieden. „Während wir hauptsächlich mit sehr komplexen und unterschiedlichen Daten zu tun haben, hat das WDC-CLIMATE in Hamburg mit riesigen Datenmengen zu kämpfen. Das Hamburger WDC ist derzeit das einzige, welches die Ergebnisse von per Rechner erstellten Klimamodellen speichert. Bremen hingegen ist das einzige Zentrum, das Daten aus verschiedenen Disziplinen in seiner Datenbank vereint. Dies verursacht ein Problem, da ja schon verschiedene Wissenschaftler ihre Daten unterschiedlich erfassen. Bei Messungen aus unterschiedlichen Disziplinen zum selben Parameter ist der Unterschied noch größer.

„Wir müssen für jeden Datenpunkt zusätzlich genau dokumentieren, wie die Informationen zustande gekommen sind, welche Einheiten, welche Messgeräte oder -methoden genutzt wurden. Sonst sind sie nicht vergleichbar.“ Allein schon, dass Wissenschaftler immer neue Parameter, immer neue Messgeräte und Methoden anwenden, stellt die Datenmanager der Zentren vor immer neue Herausforderungen. Denn: Nur vergleichbare Daten sind wertvolle Daten. „Eine der größten Herausforderungen für uns ist immer wieder die Qualitätskontrolle der Daten.“

Aufwändige Suche


Doch um die Schätze aus den Tiefen der Datenbanken nutzen zu können, müssen die Wissenschaftler sie erst einmal finden. „Die Daten der deutschen Zentren können alle über ein gemeinsames Portal per Volltextsuche und sogar über Google gefunden werden. Das Stichwort Nitrat z.B. liefert dann alle Datensätze, die diesen Parameter beinhalten.“, berichtet Diepenbroek. Der Ausbau dieser Funktion auch auf die anderen Zentren war eines der Ziele der Konferenz. Dazu beschlossen die rund 70 Teilnehmer aus aller Welt ein Pilotprojekt von fünf chinesischen, drei amerikanischen und den drei deutschen Zentren. Sie sollen bis Ende des Jahres über ein gemeinsames Portal mittels Volltextsuche ähnlich schnell und bequem durchsuchbar sein, wie das Internet mit Hilfe von Suchmaschinen wie Google.

Die Vernetzungsfähigkeit macht es möglich, dass Daten aus den WDCs auch über andere Portale und Systeme auffindbar sind, wie zum Beispiel über das GEOSS (Global Earth Observation System of Systems). Dies ist eine von der Group on Earth Observations (GEO), angestoßene internationalen Initiative von mehr 68 Staaten. Die Vision von GEOSS besteht darin, die dynamischen Prozesse auf der Erde mittels eines koordinierten Informationsnetzwerkes besser verstehen zu können. Das Projekt kann somit auch dazu beitragen, die Einhaltung von Umweltverträgen zu überwachen und Informationsgrundlagen für politische Entscheidungen zur Verfügung zu stellen. In seinem Vortrag hob der Direktor des GEOSS, Prof. José Achache die Rolle der WDCs als globale Langzeitdatenarchive hervor. In dieser Rolle werden sie auch für das von 2007 bis 2009 dauernde Internationale Polarjahr (IPY) eingesetzt. An dem weltweiten Programm des IPY beteiligen sich etwas 50.000 Wissenschaflter, die schätzungsweise 500.000 Datensätze erheben werden. Das entspricht der Größenordnung der von den deutschen WDCs in 20 Jahren gesammelten Datenmenge.

Ein weiterer Diskussionspunkt während der Konferenz war die Zitierfähigkeit von Datensätzen und Datenquellen. Die Datenbanken leben von den Wissenschaftlern, die ihre Daten zur Verfügung stellen. Dies ist zwar mit Arbeit verbunden, bis jetzt aber mit wenigen Vorteilen. Daher sollen die Datensätze genau wie eine wissenschaftliche Publikation zitiert werden können und eine dementsprechende Kennzeichnung, die so genannte DOI-Nummer, erhalten. So wird die Arbeit der veröffentlichenden Wissenschaftler gewürdigt und kann von Kollegen in ihren eigenen Artikeln zitiert werden. Die deutschen WDCs sind Vorreiter auf diesem Gebiet und haben ihre Erfahrungen aus einem Pilotprojekt auf der Konferenz vorgestellt. „Das allerdings war wohl doch für die meisten Teilnehmer noch Zukunftsmusik – bis es soweit ist, dass die Zentren weltweit uns folgen, wird es noch eine ganze Weile dauern“, bedauert Michael Diepenbroek.
(Kirsten Achenbach, MARUM_Forschungszentrum Ozeanränder, 21.05.2007 - AHE)
 
Printer IconShare Icon