Standort: science.ORF.at / Meldung: "Zahlen entlarven Schwindler"

Zahlen vor blauem Hintergrund

Zahlen entlarven Schwindler

Zahlen beginnen mehr als sechsmal so häufig mit "1" wie mit "9" - so will es ein mathematisches Gesetz. Andere Verteilungen sind verdächtig. In der Finanzwelt kann ein Betrug dahinterstecken, in der Wissenschaft manipulierte Datensätze. Auch in Sozialen Netzwerken liefern sie Hinweise auf ungewöhnliche Vorgänge, wie eine neue Studie zeigt.

Mathematik 29.04.2015

Der Preprint der Studie auf arXiv.org:

"Benford's Law Applies to Online Social Networks" von Jennifer Golbeck et al., erschienen am 20 April 2015.

1881 machte der US-Astronom Simon Newcomb eine auf den ersten Blick nebensächliche, aber doch eigenartige Beobachtung: Die Logarithmentafeln - vor der Verbreitung des Taschenrechners unentbehrliche Rechenhilfsmittel - in seiner Bibliothek waren im vorderen Teil viel abgegriffener als im hinteren. Ein Indiz dafür, dass die Benutzer viel häufiger nach Logarithmen suchen, die mit "1" beginnen, als nach jenen mit höheren Anfangsziffern. Nach der Durchsicht anderer Datensätze kam er zum Schluss, dass Zahlen, die mit "1" beginnen, generell häufiger vorkommen als alle anderen. Newcombs These geriet in Vergessenheit und wurde erst 50 Jahre später vom US-Forscher Frank Benford erneut entdeckt und mathematisch formuliert.

Das nach ihm benannte Benfordsche Gesetz besagt, dass die Anfangsziffer "1" am häufigsten vorkommt, von der "2" bis zur "9" sinkt die Häufigkeit. "1" kommt demnach 6,5-mal so häufig als Anfangsziffer vor wie "9". Anders ausgedrückt: 30 Prozent aller Zahlen beginnen mit "1", weniger als fünf Prozent mit "9". Das Gesetz gilt wohlgemerkt nur, wenn die Datenmenge groß genug.

Breite Gültigkeit

Vordergründig betrachtet wirkt das Gesetz höchst kontraintuitiv. Man würde eine Gleichverteilung der Zahlen erwarten. Wieso sollten Zahlen mit einer "1" am Anfang so viel häufiger sein? Es stellte sich jedoch heraus, dass ein großer Teil aller Datensätze dieser Regel folgt: Bevölkerungszahlen, Oberflächen von Seen, Energieverbrauchszahlen von Haushalten, Halbwertszeiten radioaktiver Substanzen, Preise am Finanzmarkt, physikalische Konstanten, Baseball-Statistiken sowie die Zahlen im Reader's Digest.

Bei Zahlen, die sich mit der Zeit verändern, ist das Gesetz bei genauerer Betrachtung gar nicht so unlogisch, wie es zuerst scheint. Im Dezimalsystem ist die "1" nach jeder neu dazu kommenden Dezimalstelle gewissermaßen im Vorteil, und zwar so lange, bis die anderen Ziffern nach und nach wieder aufholen, als letzte kommt naturgemäß die "9" dran. Das Gesetz gilt aber auch in Zahlensystemen mit anderer Basis (z.B. binäre und hexadezimale) und was noch überraschender scheint: sogar für unveränderliche Zahlen, wie z.B. die Oberflächen von Seen. Das liegt an der Verteilung von Größenordnungen. Nicht sehr mathematisch ausgedrückt bedeutet das in etwa: Kleine Dinge sind tendenziell häufiger als große.

Indiz für Betrug

Die Tatsache, dass sich die Gesetzmäßigkeiten auch recht praktisch anwenden lassen, verdanken wir unter anderem dem US-Mathematiker Theodore Hill, der das Benfordsche Gesetz weiterentwickelt hat. Dieser forderte laut Jennifer Golbeck von der University of Maryland - der Autorin der aktuellen Untersuchung - Skeptiker auf, selbst die Probe aufs Exempel zu machen: Sie sollten einfach alle Zahlen auf der Startseite von mehreren Tageszeitungen aufschreiben und dann überprüfen, ob sie der Benford'schen Verteilung entsprechen.

In den 1990er Jahren begann man mit dem Gesetz Wirtschafts- und Bankdaten zu prüfen und konnte tatsächlich so manchen Betrugsfall aufdecken. Heute wird das Instrument daher auch von Wirtschaftsprüfern und Steuerfahndern eingesetzt, um Bilanzfälschern auf die Schliche zu kommen. Wahlbetrug oder die Manipulation wissenschaftlicher Datensätze werden mitunter ebenfalls mit dieser Methode überprüft.

Unregelmäßigkeiten sind natürlich nicht automatisch ein Beweis für einen Betrug, so Golbeck, aber es muss eine Erklärung bzw. einen externen Einfluss geben, dem man nachgehen sollte, wenn Daten von der Benford'schen Verteilung abweichen. Wenn beispielsweise eine Firma regelmäßig ein Produkt kauft, das 3.999 Euro kostet, taucht die "3" wahrscheinlich häufiger auf als erwartet - korrekt ist die Bilanz dennoch.

Hinweis auf Eingriffe

In ihrer Studie hat sich die Forscherin eines beliebten modernen Datensatzes angenommen, jenem aus sozialen Netzwerken. Sie hat Personendaten von fünf der wichtigsten Plattformen mit Hilfe des Benford'schen Gesetzes analysiert: von 18.000 Facebook-, 78.000 Twitter-, 20.000 Google Plus, 40.000 Pinterest und 45.000 LiveJournal-Nutzern. Gezählt wurden Freunde, Follower, Kommentare, Kontakte der Freunde, etc. Fast durchgängig entsprach die statistische Verteilung der ersten Ziffern dem Gesetz - womit gezeigt war, dass auch soziale Netzwerk grundsätzlich der Benford'schen Verteilung folgen.

Nur bei einer der Plattformen fand sich eine deutliche Abweichung, und zwar bei den Followern auf Pinterest, dort dominierte die "5". Die Ursache dafür war schnell gefunden: Pinterest-Nutzer müssen, wenn sie sich auf der Plattform anmelden, mindestens fünf Interessen angeben, bevor sie die Registrierung abschließen dürfen. "Sie könnten diese später wieder löschen, was aber die wenigsten tun. Diese Anfangsbedingungen verändert die gesamte Verteilung der Anfangsziffern", schreibt Golbeck. Das sei ein schönes Beispiel, wie sich ein Eingriff in das natürliche Nutzerverhalten auf die Zahlenverteilung auswirken kann.

Subtile Verhaltensmuster

Auch in weiteren Datensätzen fand die Forscherin interessante Unregelmäßigkeiten. Von 21.000 Twitter-Nutzern hatten sie Zugang zu persönlichen Netzwerkdaten. Die meisten entsprachen ebenfalls dem Gesetz, nur in 170 fand sich eine andere Verteilung. Von diesen wiederum waren tatsächlich einige in fragwürdige Aktivitäten verstrickt. Ein paar waren ganz offensichtlich Spam. Der größere Teil stammte von russischen Bots (automatisierte Webagenten, Anm.), die wahllos literarische Schnipsel oder Zitate posten. Warum die russischen Accounts existieren und welche Absichten sie haben, sei nicht klar. Faktum ist, dass sie sich alle recht ähnlich und höchst ungewöhnlich verhalten.

Für die forensische Untersuchung sozialer Netzwerke haben die Erkenntnisse jedenfalls praktische Bedeutung. Denn es gebe subtile Muster menschlichen Verhaltens, die sich in Zahlen spiegeln und die sich gar nicht so leicht künstlich reproduzieren lassen. Man werde zwar damit nicht allen verdächtigen Aktivitäten auf die Spur kommen, aber gemessen an der enormen Zahl der User in Sozialen Netzwerken, ist der Abgleich mit der Benfordschen Verteilung ein recht schneller und einfacher Weg so manche Unregelmäßigkeit aufzudecken.

Eva Obermüller, science.ORF.at

Mehr zum Thema: