Stehen lediglich wenige Daten zur Verfügung, muss besonders darauf geachtet werden, dass die gesammelten Daten die Wirklichkeit genau widerspiegeln – denn jeder Messfehler kann das Ergebnis verfälschen. Besonders schlimm ist dies etwa, wenn alle diese Daten von einem einzigen verfälschenden Messinstrument stammen.
Mit Big Data hingegen liegen große Datensammlungen vor, die sich technisch relativ einfach auch kombinieren lassen. Bei einem so viel Mehr an Daten fallen Messfehler bei einem oder einer Handvoll Datenpunkten deutlich weniger ins Gewicht. Und wenn die Daten aus unterschiedlichen Quellen stammen, ist auch die Wahrscheinlichkeit eines systematischen Fehlers geringer.
{1l}
Konflikt bei der Datenauswahl
Gleichzeitig bedeutet ein Mehr an Daten aus sehr unterschiedlichen Quellen aber auch neue mögliche Problemfelder. So können unterschiedliche Datenbestände die Wirklichkeit mit unterschiedlichen Fehlerraten gemessen haben oder gar unterschiedliche Aspekte der Wirklichkeit abbilden – wodurch sie nicht unmittelbar vergleichbar sind. Würden wir sie trotzdem einer gemeinsamen Analyse unterziehen, hieße das, Äpfel mit Birnen zu vergleichen.
Damit ist klar, dass weder eine kleine, mit hoher Genauigkeit gesammelte Datenmenge einer sehr großen, aus unterschiedlichen Quellen stammenden Datenmenge überlegen ist, noch umgekehrt. Stattdessen sehen wir uns im Kontext von Big Data bei der Auswahl der Daten viel häufiger einem Zielkonflikt gegenüber, bei dem es auf den jeweiligen Kontext ankommt, ob wir uns für das Eine oder Andere entscheiden. Bisher trat dieser Zielkonflikt selten auf, weil wir aufgrund der hohen Kosten des Sammelns und Auswertens von Daten in der Regel nur wenige davon sammelten. Daraus hat sich mit der Zeit der generelle Fokus auf die Qualität der Daten entwickelt.
Computer als Übersetzer
Zur Verdeutlichung ein Beispiel: Ende der 1980er Jahre experimentierten Forscher bei IBM mit einem neuen Ansatz der automatisierten maschinellen Übersetzung von Texten einer Sprache in eine andere. Die Idee war, statistisch zu ermitteln, welches Wort einer Sprache in ein bestimmtes Wort einer anderen Sprache übersetzt wird. Dafür bedurfte es eines Trainingstextes, der den Forschern in Form der offiziellen Protokolle des kanadischen Parlaments in den zwei Amtssprachen Englisch und Französisch zur Verfügung stand.
Das Ergebnis war verblüffend gut, konnte in der Folge aber kaum verbessert werden. Ein Jahrzehnt später nahm Google alles an mehrsprachigen Texten aus dem Internet, das sich finden ließ, unabhängig von der Qualität dieser Übersetzungen. Die um Größenordnungen größere Datenmenge lieferte trotz sehr unterschiedlicher – und in Summe durchschnittlich wohl geringerer – Qualität der Übersetzungen ein sehr viel besseres Ergebnis, als es IBM mit weniger, aber besseren Daten erzielt hatte.
Viktor Mayer-Schönberger für bpb.de, CC-by-nc-nd 3.0
Stand: 22.06.2018