Standort: science.ORF.at / Meldung: "Statistischer Fingerabdruck von Büchern"

Rücken alter, ledergebundener Bücher

Statistischer Fingerabdruck von Büchern

Wiener Komplexitätsforscher haben so etwas wie einen statistischen Fingerabdruck von Büchern entdeckt. Sie können aus der Statistik der in einem Buch verwendeten Worte Aussagen über den Autor oder den Texttyp machen.

Komplexitätsforschung 10.06.2015

Ausgangspunkt der Arbeit der Gruppe um den Physiker Stefan Thurner vom Institut für Wissenschaft komplexer Systeme an der Medizinischen Universität Wien sind Vorgänge, in denen mit der Zeit die Zahl der Möglichkeiten abnimmt. Ein anschauliches Beispiel für solche in natürlichen und sozialen Systemen häufigen Prozesse ist die Satzbildung: Das erste Wort kann man noch frei wählen, bei jedem weiteren schränken Grammatik und Kontext die Wortwahl immer weiter ein.

Die Studie in "Royal Society Interface":

"Understanding Zipf's law of word frequencies through sample-space collapse in sentence formation" von Stefan Thurner et al., erschienen am 10. Juni 2015.

Die "PNAS"-Studie auf arXiv.org:

"Understanding scaling through history-dependent processes with collapsing sample space" von Bernat Corominas-Murtra et al., erschienen Mai 2015.

In einer vor wenigen Wochen veröffentlichten Arbeit im Fachblatt "PNAS" haben Thurner und seine Kollegen einen mathematischen Satz für solche zeitabhängigen Vorgänge bewiesen. Demnach führt jeder Prozess, der nach jedem Zeitschritt weniger Möglichkeiten hat, zum sogenannten Zipf'schen Gesetz. Dieses hat der US-Linguist George Kingsley Zipf (1902-1950) in den 1930er-Jahren formuliert.

Er hatte die Häufigkeit von Wörtern in einem Buch oder einer Sprache gezählt, diese gereiht und eine verblüffende Regelmäßigkeit festgestellt: Demnach kommt das zweihäufigste Wort etwa halb so oft vor wie das häufigste, das dritthäufigste Wort ein Drittel Mal so oft und das millionsthäufigste Wort ein millionstel Mal so oft. Solche Regelmäßigkeiten finden sich laut Thurner auch bei anderen Systemen, etwa der Häufigkeit von Erdbeben, der Größe von Städten oder der Einkommensverteilung.

Automatische Textanalyse

Durch ihren Beweis, dass zeitabhängige Prozesse dem Zipf'schen Gesetz gehorchen, verstehen die Wissenschaftler auf sehr allgemeine Weise solche Probleme. "Unsere aktuelle Arbeit ist jetzt eine erste Anwendung des Prinzips, das wir in PNAS vorgestellt haben", sagte Thurner gegenüber der APA.

Anhand von zehn berühmten englischsprachigen Büchern - von Charles Darwins "The Origin of Species", über Shakespeares "Romeo and Juliet" bis zu James Joyces "Ulysses" - zeigten die Wissenschaftler, "dass es in jedem Buch ein Zipf'sches Gesetz gibt". Dieses sei nicht exakt und zeige Abweichungen, wenn man genauer hinschaue, "aber diese Abweichungen können wir nun verstehen". Auch wenn dies auf den ersten Blick vielleicht etwas "nerdig" erscheint, bietet der zweite Blick verblüffende Anwendungsmöglichkeiten.

"Es erlaubt uns, aus der Statistik der Verwendung von Worten Aussagen über den Autor oder den Texttyp machen zu können, etwa ob es sich um ein Theaterstück, einen Roman des 19. Jahrhundert oder ein Lehrbuch handelt", sagte Thurner. Es sei eine Möglichkeit, den Stil eines Autors zu quantifizieren und eigne sich dadurch als "statistischer Fingerabdruck". Man könne damit Texte klassifizieren und vergleichen, was Antworten auf Fragen ermögliche wie "Was ist das ähnlichste Buch zu Darwins 'Entstehung der Arten'? Das könnte neue Perspektiven eröffnen, wie Maschinen Texte lesen und nach verschiedensten Gesichtspunkten 'verstehen' können - auch nach solchen, die uns als Menschen nicht zugänglich sind'', so Thurner.

science.ORF.at/APA

Mehr zum Thema: