Äpfel mit Birnen - scinexx | Das Wissensmagazin
Anzeige
Anzeige

Äpfel mit Birnen

Von Quantität und Qualität

Stehen lediglich wenige Daten zur Verfügung, muss besonders darauf geachtet werden, dass die gesammelten Daten die Wirklichkeit genau widerspiegeln – denn jeder Messfehler kann das Ergebnis verfälschen. Besonders schlimm ist dies etwa, wenn alle diese Daten von einem einzigen verfälschenden Messinstrument stammen.

Mit Big Data hingegen liegen große Datensammlungen vor, die sich technisch relativ einfach auch kombinieren lassen. Bei einem so viel Mehr an Daten fallen Messfehler bei einem oder einer Handvoll Datenpunkten deutlich weniger ins Gewicht. Und wenn die Daten aus unterschiedlichen Quellen stammen, ist auch die Wahrscheinlichkeit eines systematischen Fehlers geringer.

{1l}

Konflikt bei der Datenauswahl

Gleichzeitig bedeutet ein Mehr an Daten aus sehr unterschiedlichen Quellen aber auch neue mögliche Problemfelder. So können unterschiedliche Datenbestände die Wirklichkeit mit unterschiedlichen Fehlerraten gemessen haben oder gar unterschiedliche Aspekte der Wirklichkeit abbilden – wodurch sie nicht unmittelbar vergleichbar sind. Würden wir sie trotzdem einer gemeinsamen Analyse unterziehen, hieße das, Äpfel mit Birnen zu vergleichen.

Damit ist klar, dass weder eine kleine, mit hoher Genauigkeit gesammelte Datenmenge einer sehr großen, aus unterschiedlichen Quellen stammenden Datenmenge überlegen ist, noch umgekehrt. Stattdessen sehen wir uns im Kontext von Big Data bei der Auswahl der Daten viel häufiger einem Zielkonflikt gegenüber, bei dem es auf den jeweiligen Kontext ankommt, ob wir uns für das Eine oder Andere entscheiden. Bisher trat dieser Zielkonflikt selten auf, weil wir aufgrund der hohen Kosten des Sammelns und Auswertens von Daten in der Regel nur wenige davon sammelten. Daraus hat sich mit der Zeit der generelle Fokus auf die Qualität der Daten entwickelt.

Anzeige

Computer als Übersetzer

Zur Verdeutlichung ein Beispiel: Ende der 1980er Jahre experimentierten Forscher bei IBM mit einem neuen Ansatz der automatisierten maschinellen Übersetzung von Texten einer Sprache in eine andere. Die Idee war, statistisch zu ermitteln, welches Wort einer Sprache in ein bestimmtes Wort einer anderen Sprache übersetzt wird. Dafür bedurfte es eines Trainingstextes, der den Forschern in Form der offiziellen Protokolle des kanadischen Parlaments in den zwei Amtssprachen Englisch und Französisch zur Verfügung stand.

Das Ergebnis war verblüffend gut, konnte in der Folge aber kaum verbessert werden. Ein Jahrzehnt später nahm Google alles an mehrsprachigen Texten aus dem Internet, das sich finden ließ, unabhängig von der Qualität dieser Übersetzungen. Die um Größenordnungen größere Datenmenge lieferte trotz sehr unterschiedlicher – und in Summe durchschnittlich wohl geringerer – Qualität der Übersetzungen ein sehr viel besseres Ergebnis, als es IBM mit weniger, aber besseren Daten erzielt hatte.

  1. zurück
  2. |
  3. 1
  4. |
  5. 2
  6. |
  7. 3
  8. |
  9. 4
  10. |
  11. 5
  12. |
  13. 6
  14. |
  15. 7
  16. |
  17. 8
  18. |
  19. weiter

Viktor Mayer-Schönberger für bpb.de, CC-by-nc-nd 3.0
Stand: 22.06.2018

Anzeige

In den Schlagzeilen

Inhalt des Dossiers

Big Data
Mehr Daten – mehr Erkenntnis?

Die drei Vs
Worauf kommt es bei Big Data an?

Mit Daten zum Erkenntnisgewinn
Was hat sich durch Big Data verändert?

Äpfel mit Birnen
Von Quantität und Qualität

Korrelation und Kausalität
Was sagen uns die Daten – und was nicht?

Gier nach Daten
Warum Datensammeln zum Selbstläufer wird

Big Data weiß alles?!?
Permanenz der Vergangenheit, vorhergesagte Zukunft

Diktatur der Daten
Wie geht es weiter?

Diaschauen zum Thema

News zum Thema

Mit Big Data auf Mineral-Jagd
Netzwerkanalyse könnte bei der Suche nach neuen Mineralen helfen

Millionen Deutsche im Netz ausgespäht
Internetaktivitäten geben intime Details aus Privat- und Berufsleben preis

Big Data: Genomik als neuer Datenriese
Genforschung könnte schon in zehn Jahren mehrere Exabytes an Daten jährlich generieren

Kreditkarten-Daten: Von wegen anonym
Auch anonymisierte Datensätze von Transaktionen lassen sich leicht zuordnen

Soziale Medien – verzerrte Ergebnisse?
Forscher warnen vor unreflektierter Nutzung von Big Data aus sozialen Medien

Dossiers zum Thema

Mustererkennung - „Mustergültige Erkenntnis“ in Astrophysik, Musik und Medizin

Anzeige
Anzeige