Standort: science.ORF.at / Meldung: "Bücher als "kulturelles Genom""

Englische Wörter in einer Grafik

Bücher als "kulturelles Genom"

Wörter, Sätze und Texte sind Gefäße, deren Inhalte bzw. Bedeutungen sich üblicherweise beim Lesen oder Hören erschließen. Mit Hilfe von Computern haben Forschern nun nach bisher verborgenem Wissen im Geschriebenen gesucht. Ein Datensatz von fast 5,2 Millionen Büchern lieferte dabei neue sprachliche, kulturelle sowie historische Einsichten.

Kulturomik 17.12.2010

Sprachliche "Ausgrabungsarbeiten"

Geistes- und Kulturwissenschaften generieren ihre Erkenntnisse in der Regel ohne quantitative Methoden. Das scheitert unter anderem einfach am Mangel geeigneter Daten, wie Jean-Baptiste Michel von der Harvard University meint. Das könne sich mit der Digitalisierung von Büchern aber ändern. Die aktuelle Studie ist ein erster Anlauf, den bisher größten sprachlichen Datensatz - nämlich vier Prozent aller jemals gedruckten Bücher - als "fossilen Beleg" der menschlichen Kultur zu nutzen. "Culturomics" nennen die Wissenschaftler ihren neuen Ansatz der maschinellen Analyse von Texten.

Das Korpus entstand aus dem Digitalisierungsprojekt von Google Books. Die Bücher stammen aus über 40 Bibliotheken und Verlagen auf der ganzen Welt, die eingescannt wurden, inklusive einiger Metadaten wie Erscheinungsort und -zeitpunkt. Insgesamt sind so bereits 15 Millionen bzw. 12 Prozent aller jemals veröffentlichten Bücher digitalisiert worden. Etwa 5,2 Millionen davon wurden von den Forschern für ihre Studie ausgewählt.

Zur Studie in "Science":

Quantitative Analysis of Culture Using Millions of Digitized Books von Jean-Baptiste Michel et al.

Dieser Datensatz besteht aus 500 Milliarden Wörtern, 361 Milliarden davon in Englisch, der Rest in Französisch, Spanisch, Chinesisch, Deutsch, Russisch und Hebräisch. Die ältesten Werke stammen aus dem 16. Jahrhundert, wobei diese frühen Werke nur einen sehr kleinen Bruchteil ausmachen. Erst ab dem 18. Jahrhundert wächst das Korpus deutlich an, um 60 Millionen Wörter im Jahr 1800, 1900 kamen schon 1,4 Milliarden pro Jahr dazu und 2000 ganze acht Milliarden. Allein zum Lesen aller Werke aus dem Jahr 2000 würde ein Mensch 80 Jahre brauchen, ohne Unterbrechung durch Schlafen oder Essen und bei einer konstanten Lesegeschwindigkeit von 200 Wörtern in der Minute. Die gesamte Buchstabenfolge ist tausend Mal länger als das menschliche Genom und man könnte damit die Distanz zum Mond mehr als zehnmal füllen.

Die derzeitige Version des Datensatzes ist unter www.culturomics.org verfügbar.

Häufigkeit als Messgröße

Um Copyright-Einschränkungen zu entgehen, beschränkten die Forscher ihre Suche auf einzelne Zeichenfolgen und Gruppen bis Fünf, das konnten Wörter, aber auch Zahlen sein. Die Häufigkeit der Elemente lässt laut dem Team, dem auch der in Harvard forschende Österreicher Martin Novak angehört, Rückschlüsse auf manche kulturelle Veränderungen zu. Denn diese prägen zum einen die Konzepte, die verwendet werden. Zudem ist die Sprache selbst einem ständigen Wandel unterworfen.

Bereits 2007 hatten die Wissenschaftler mit ähnlichen Methoden, aber einem deutlich kleineren Datensatz die historischen Veränderungen der englischen Verben untersucht und in einer Formel festgeschrieben.

"Dunkle sprachliche Materie"

Ö1 Sendungshinweis:

Am Dienstag, den 14.12. brachte Wissen Aktuell einen Beitrag über das zufällige Wissen im Netz.

Eine der erstaunlichsten Ergebnisse der aktuellen Untersuchung: Offensichtlich enthalten Bücher ein große Menge an "lexikalischer dunkler Materie", wie der ebenfalls beteiligte Linguist Steven Pinker es nennt.

Die Forscher fanden nämlich deutlich mehr Worte als in gängigen Lexika, wie etwa dem "Webster International Dictionary" oder dem "American Heritage Dictionary". Selbst wenn Eigennamen ausgeschlossen werden, bleiben über 50 Prozent nicht lexikalisch festgehaltene Worte, beispielsweise das englische "deletable". Wie zusätzliche Analysen ergaben, können die Wörterbücher mit der realen Sprachentwicklung nicht Schritt halten.

Eine weitere linguistische Frage galt grammatikalischen Trends, nämlich dem Wettkampf unregelmäßiger und regelmäßiger Beugungen. Dabei zeigte sich, dass häufige unregelmäßige Verben eher in ihrer Form erhalten bleiben, wie etwa "find/found", wohingegen sich bei selteneren oft die regelmäßige Form durchgesetzt hat.

Die Menschheit wird vergesslicher

Die Forscher beschäftigten sich aber nicht nur mit sprachlichen Veränderungen. Eine Analyse von Jahreszahlen ergab unter anderem, dass die Menschheit ihre Vergangenheit offenbar immer schneller hinter sich lässt bzw. vergisst. Das heißt, die Halbwertszeit von referenzierten Jahren wurde immer kürzer.

Innovationen verbreiten sich laut den Daten immer schneller. Menschen werden in immer jüngeren Jahren berühmt, aber häufig schnell wieder vergessen. Auch scheinbar immerwährende Berühmtheit ist der Studie zufolge vergänglich, so verliere der gut im kollektiven Gedächtnis verankerte Sigmund Freud in den letzten Jahren immer mehr an Boden, wohingegen Charles Darwin aufholt. 2005 hat letzterer die Führung übernommen. Auch "Gott" sei den Nennungen nach zwar nicht tot, angesichts der schwindenden Popularität könnte er aber einen neuen Verleger gut gebrauchen.

Material für die Wissenschaft

Die Methode könne auch helfen, Zensur oder Propaganda aufzudecken. So wird z.B. der jüdische Maler Marc Chagall von 1936 bis 1944 nur einmal im gesamten deutschen Textkorpus erwähnt. Danach stieg die Häufigkeit wieder deutlich an. Wenn man nach derartigen Mustern sucht, kann man laut den Forschern auch bisher unbekannten Zensuren auf die Spur kommen.

In Zukunft will das Team die Datenbasis sowie die Analysemethoden weiter ausbauen und der Wissenschaft, aber auch der Öffentlichkeit zur Verfügung stellen. Zeitgleich mit der Veröffentlichung der Studie stellt Google die Datenbasis online.

Eva Obermüller, science.ORF.at

Mehr zum Thema: