Gier nach Daten

Vorlesen

2014 berichteten Wissenschaftsmagazine in aller Welt von einem Fehler in Googles Grippevorhersage: Vor allem im Dezember 2012 habe sich das Unternehmen in der Vorhersage der Wintergrippe in den USA massiv verschätzt, und viel zu viele Fälle seien prognostiziert worden. Was war passiert?

Ohne passende statistische Modelle können auch Datenanalysen danebenliegen. © Bigtunaonline/iStock.com

Nach eingehender Fehleranalyse gestand Google ein, dass man das für die Grippevorhersage verwendete statistische Modell seit der Einführung im Jahr 2009 unverändert gelassen habe. Weil sich aber die Suchgewohnheiten der Menschen im Internet über die Jahre verändert hätten, sei die Vorhersage so deutlich daneben gegangen. Google hätte das eigentlich wissen müssen. Denn viele andere Big-Data-Analysen aktualisiert der Internetkonzern regelmäßig anhand neuer Daten. Eine aktualisierte Fassung der Vorhersage, basierend auf Daten bis 2011, ergab denn auch eine wesentlich genauere „Vorhersage“ für Dezember 2012 und die folgenden Monate.

Datenpunkte statt Modelle

Dieser etwas peinliche Fehler von Google streicht eine weitere Besonderheit von Big Data heraus: Bisher versuchten wir, verallgemeinerungsfähige Erkenntnisse der Wirklichkeit zu gewinnen, die dem Anspruch genügen sollten, einfach und stets gültig zu sein. Dabei mussten wir aber oft die Wirklichkeit idealisieren. In den meisten Fällen reichte das auch aus. Indem wir nun aber antreten, die Wirklichkeit in all ihrer Detailreiche verstehen zu wollen, stoßen wir mit idealisierten Vorstellungen der Welt an Grenzen.

Mit Big Data wird klar, dass wir mit idealisierten Vereinfachungen die Wirklichkeit nicht mehr in ihrer ganzen Vielfalt und Komplexität fassen können, sondern jedes Ergebnis einer Analyse nur als vorläufiges begreifen müssen. So nehmen wir jeden neuen Datenpunkt dankbar an, in der Hoffnung, dass wir uns mit seiner Hilfe der Wirklichkeit ein kleines Stückchen weiter annähern. Und wir werden akzeptieren, dass uns abschließende Erkenntnis verborgen bleibt, nicht zuletzt, weil die Daten eben stets nur ein Abbild der Wirklichkeit und damit im Letzten unvollständig sind.

Mit wachsender Datenmenge sinkt die Macht der Algorithmen. © Monsitij/ iStock.com

Je mehr, desto besser

Die Prämisse von Big Data ist, dass sich aus Daten Erkenntnisse über die Wirklichkeit gewinnen lassen. Konstitutiv für den Erkenntnisgewinn sind daher primär die Daten, nicht der Algorithmus. Auch das ist ein Unterschied zur „datenarmen“ Vergangenheit. Denn bei wenigen Daten kommt dem Modell, dem Algorithmus, größeres Gewicht zu. Dieses muss die geringe Menge an Daten ausgleichen.

Das hat Konsequenzen auch für die Verteilung informationeller Macht im Kontext von Big Data. In Zukunft werden weniger jene, die Daten bloß analysieren, Macht haben, als jene, die auch den Zugang zu Daten haben. Damit erhält auch das Unbehagen vieler Menschen gegenüber Organisationen und Unternehmen, die scheinbar immer größere Datenmengen sammeln und auswerten, ein sachliches Fundament.

Daten als Machtfaktor

Weil sich aus Daten Erkenntnisse schöpfen lassen, bestehen massive Anreize, immer mehr Aspekte unserer Wirklichkeit in Daten zu fassen, also – um einen Begriff zu prägen – die Wirklichkeit immer stärker zu „datafizieren“. Immer kleinere, günstigere und genauere Sensoren helfen hier genauso wie eine immer noch zunehmende Rechenleistung der digitalen Werkzeuge, mit denen wir uns umgeben.

In der Vergangenheit war nicht nur das Sammeln und Auswerten von Daten kostspielig, sondern auch das fortgesetzte Speichern der Daten. Aus diesem Grund wurde in der Regel nur so wenig wie nötig gesammelt, zudem wurden die Daten nach der Verwendung auch wieder gelöscht oder in Archiven vergessen. Diese Nutzung der Daten für ein bestimmtes Ziel bilden auch die bestehenden Datenschutznormen in der sogenannten Zweckbindung ab. Sinken die Kosten des Auswertens und Speicherns jedoch, dann ist es plötzlich sinnvoll, einmal gesammelte Daten vorrätig zu halten und zukünftig für neue Zwecke wiederzuverwenden.

Das führt dazu, dass auch aus wirtschaftlicher Sicht massive Anreize bestehen, möglichst viele Daten scheinbar grundlos zu sammeln, zu speichern und so oft wie möglich einzusetzen. Denn dieses Datenrecycling erhöht die Effizienz der Datenwirtschaft.

zurück
1
2
3
4
5
6
7
8
weiter

Viktor Mayer-Schönberger für bpb.de, CC-by-nc-nd 3.0
Stand: 22.06.2018

22. Juni 2018

vorherige Meldung

nächste Meldung

Gier nach Daten

Warum Datensammeln zum Selbstläufer wird

Datenpunkte statt Modelle

Je mehr, desto besser

Daten als Machtfaktor

In den Schlagzeilen

Inhalt des Dossiers

Diaschauen zum Thema

News zum Thema

Dossiers zum Thema

Social Media

Partner

Service