Standort: science.ORF.at / Meldung: "Studien mit Online-Daten oft wertlos"

Menschen im digitalen Datenstrom.

Studien mit Online-Daten oft wertlos

Über Internet-Suchanfragen und soziale Medien werden gigantische Datenmengen generiert, die zunehmend zum Studium menschlichen Verhaltens und Prognose von Entwicklungen genutzt werden. Doch solche Daten haben viele Eigenheiten, die irreführen können, erklärt der aus Österreich stammende Netzwerkanalyst Jürgen Pfeffer.

Kritik 28.11.2014

Falsche Prognosen

Der Artikel in "Science":

"Social media for large studies of behavior" von J. Pfeffer und D. Ruths, erschienen am 28. November 2014.

Ein gutes Beispiel für falsche Schlüsse aus solchen Datenanalysen sei der "Google Grippe Trend", so Pfeffer, der an der Carnegie Mellon University in Pittsburgh forscht. Anhand der Suchanfragen nach Grippesymptomen sagten die Google-Leute dabei vorher, wie viele Menschen sich in den folgenden Tagen krank melden würden. "Alles lief großartig, aber plötzlich funktionierte das Ding nicht mehr, und viele Probleme kamen zum Vorschein", erklärt er.

Es habe sich herausgestellt, dass die Google-Analyse den Winter anstatt der Grippe vorausgesagt hat. Unter den verwendeten 50 Millionen Variablen einer Grippe-Datenreihe würde man immer etwas finden, das korreliert, aber nicht zusammenhängt, meint er - so wie auch die Geburtenraten und die Zahl der Störche in ländlichen Gebieten. "Wenn die Grippe aber einmal kommt, wenn es wärmer wird, funktioniert das Modell nicht mehr", so Pfeffer.

Bei vielen solchen Studien sei es problematisch, dass Daten und Berechnungsverfahren geheim gehalten werden. "Google hat sich bis heute geweigert, das dahinter liegende Modell zu veröffentlichen, damit es von anderen Wissenschaftlern überprüft werden kann", erklärte er. Auch die verwendete Suchanfrage-Datenbank sei nur sehr eingeschränkt zugänglich.

Die Suchdaten wären außerdem verzerrt. "Es stellte sich raus, dass Google in der Datenbank nicht speichert, was die Benutzer tippen, sondern das, was nach der Autovervollständigung eingegeben wird", so Pfeffer. Dadurch ginge ein Teil des "menschlichen Verhaltens" verloren.

Wenig repräsentativ, gefälschte Profile

Trotz der großen Menge seien auch die Benutzer von Sozialen Medien nicht unbedingt repräsentativ, betont Pfeffer und sein Kollege Derek Ruths, der an der McGill University in Montreal forscht. Das soziale Netzwerk "Pinterest", in dem Bilder und Videos geteilt, geliked und kommentiert werden, würde etwa von Mittelschicht-Frauen zwischen 25 und 34 dominiert, und sein Pendant "Instagram" von afro- und lateinamerikanischen Stadtbewohnern zwischen 18 und 29. Solche Verfälschungen wären in den seltensten Fällen erwähnt, geschweige denn berücksichtigt.

Viele "Personen" in den Sozialen Medien seien auch gar keine authentischen Menschen. So würden PR-Agenturen für Prominente oder Firmen schreiben, es gebe Phantomkonten und Computerprogramme, die posten. Die Betreiber würden gefälschten Benutzerkonten zwar suchen und entfernen. Für unabhängige Forscher seien sie aber in einem Datensatz kaum zu erkennen, meinen Pfeffer und Ruths. Sie plädieren an ihre Kollegen, bei Studien mit Daten aus dem Internet höhere Qualitäts- und Berechnungsstandards zu verwenden, als aktuell verbreitet.

science.ORF.at/APA

Mehr zum Thema: