Kann man Texte verstehen, ohne sie gelesen zu haben?

Miriam Jaeneke

Texte verstehen, ohne sie gelesen zu haben - das ist nicht nur der Traum jedes Schülers, Studierenden und überhaupt von Menschen, die von Berufs wegen viel zu lesen haben. Sondern auch der von Felix Göpfert (21), Volker Karle (21) und Thomas Reichenbach (18). Die drei Physikstudierenden der Uni Freiburg haben, um sich diesem Ziel anzunähern, mit Netzwerken gearbeitet.



Zunächst zählten Felix, Volker und Thomas Wörter verschiedener Bücher. Es zeigte sich, dass ein Buch zwar 200 000 Wörtern enthalten kann, sich jedoch innerhalb des Buches so viele Wörter wiederholen, dass es insgesamt aus höchstens 10 000 unterschiedlichen Wörtern besteht. Ein sehr viel dickeres Buch mit 600 000 Wörtern Inhalt enthält dagegen nur doppelt so viele unterschiedliche Wörter. Diese Erkenntnis war erst der Anfang vieler weiterer Untersuchungen.


Felix erklärt das Vorgehen dabei so: "Wir nehmen das Buch als Aneinanderreihung von Wörtern und untersuchen: Welches Wort kommt nach welchem Wort? Dann stellen wir innerhalb dieser langen Reihe von Wörtern Verbindungen her. Man muss sich das vorstellen wie ein Spinnennetz." Alle Wörter, die Nachbarn sind, werden miteinander verbunden, ein solches Netzwerk entsteht.



Felix und seine Kommilitonen nahmen die Netzwerke genauer unter die Lupe und stellten fest, dass viele Füllwörter und bedeutungslose Wörter wie Artikel sehr häufig vorkommen – aber trotzdem unwichtig sind. "Wir versuchen, ohne die Wörter zu kennen, also ohne zu sagen, diese Wörter sind unwichtig, sondern indem wir einfach dieses Netzwerk analysieren, daraus irgendwas Sinnvolles rauszulesen."

Sinnvoll werden die Ergebnisse ihrer Erfahrung nach, wenn man nach Wortverbindungen von sechs Wörtern hintereinander sucht. In dem Text "The Origin of Species" von Charles Darwin erhält man als häufigste Sechserverbindung beispielsweise "the individuals of the same species". "Das sind schon zentrale Aussagen des Textes oder zumindest etwas, das damit zu tun hat", resümiert Felix.

Als Textgrundlage dienten neben Darwin auch Werke wie Don Quijote, Peter Pan oder Sherlock Holmes. Nicht bei allen Texten brachte das Analyseverfahren gleich gute Ergebnisse. "Das hängt auch vom Schreibstil ab und von der Länge des Textes. Ganz kurze Texte funktionieren nicht gut. Denn wir untersuchen ja die Häufigkeit von Wortverbindungen. Und bis zu einem gewissen Grad sind die zufällig, je nachdem, wie die Wörter hintereinander kommen. Da werden die Werte erst bei längeren Texten relevant."

Vorgegangen sind die drei teilweise nach Methoden der Netzwerktheorie, teils nach eigenen Überlegungen. Der Computer kam dabei nur zur Arbeitserleichterung zum Einsatz. Ein Untersuchungsparameter war die Wartezeit: Nach wie vielen Wörtern taucht dasselbe Wort wieder auf?





Die Grafik zeigt einen deutlichen Unterschied zwischen dem für das Textverständnis wichtigen Wort "species" (obere Grafik) und dem unwichtigen Wort "and" (untere Grafik): Während "species" auch bei Wartezeiten von über 300 Wörtern noch zu finden ist, herrscht bei der "and"-Grafik nach einem Wert von 250 auf der y-Achse gähnende Leere.

Was sagen diese unterschiedlichen Werte nun aus? "Allein noch nicht viel, das war auch unser Problem. Wir haben ganz viele Unterschiede zwischen wichtigen und unwichtigen Wörtern gefunden, aber wir wissen noch nicht genau warum, und wie wir aus dem Unterschied ein wichtiges Wort rauslesen können", erklärt Felix. Die Auswertung der Daten nennt er entsprechend "unser Hauptproblem".

Trotzdem hat er schon Zukunftsvisionen für das Projekt: "Das Tolle ist, das könnte man wie eine Suchmaschine verwenden. Wir könnten theoretisch irgendwas durchsuchen und dann sagen: Das sind die wichtigen Wörter im Text, ohne den Text zu kennen. Das könnte man natürlich super für Recherche verwenden." In jedweder Sprache, versteht sich. Auf die Maschine, die statt unsereinem unsere Texte liest, müssen wir indes wohl noch eine Weile warten.

Mehr dazu:


Disclosure

fudder ist Medienpartner des Regionalwettbewerbs Jugend forscht. Dieser wird in Südbaden zum elften Mal in Folge vom Waldkircher Unternehmen Sick AG durchgeführt. Im Rahmen dieser Kooperation gibt es wieder unser Forscher-Blog mit freundlicher Unterstützung der Sick AG, in dem wir euch mit den interessantesten Themen rund um das Thema Jugend forscht versorgen.