Wenn Spamvermeidung nützlich wird

Lorenz Bockisch

CAPTCHAs sind die verworrenen Buchstaben, die man auf vielen Internetseiten des Web 2.0, wie auch hier bei fudder, eingeben muss, um Kommentare abzugeben oder sich sonst zu beteiligen. Gäbe es sie nicht, wären Foren und Blogs innerhalb kürzester Zeit mit automatisch generiertem Spam zugemüllt.



CAPTCHAs nutzen dazu die Fähigkeit des Menschen, aus Buchstaben Wörter bilden zu können, was so gut noch kein Texterkennungsprogramm schafft. Aber diese, für den User eigentlich verschwendete Leistung, kann man auch sinnvoll nutzen, nämlich zur Digitalisierung von alten Schriften und Literatur.


CAPTCHA, ein Akronym für Completely Automated Public Turing-Test to tell Computers and Humans Apart ist ein automatischer Test, der eindeutig Menschen von Computern unterscheidet. Dazu werden Fähigkeiten des Menschen genutzt, zu denen künstliche Intelligenzen nicht in der Lage sind. Das am besten geeignete und meistgenutzte ist die Erkennung von Schriftbildern.

Was den Internetseitenbetreibern dabei hilft, sich vor der Spamflut zu schützen, ist für den User eigentlich verschwendete Zeit, in der keinerlei Nutzen generiert wird. Das brachte den Informatik-Professor Luis von Ahn von der Carnegie Mellon University in Pittsburgh (Pennsylvania) auf die Idee, diese Fähigkeit des Menschen zu nutzen. Es gibt nämlich einen Bereich, in dem die Möglichkeiten von Texterkennungsprogrammen an ihre Grenzen stoßen, wo aber der Mensch keine Probleme hat: Das Digitalisieren von Büchern.



Die Idee ist dabei so genial wie einfach: Man nehme Stellen aus eingescannten Büchern, bei denen das Texterkennungsprogramm ein Problem beim Erkennen gemeldet hat. Diese Wörter müssen nun noch graphisch bearbeitet, zum Beispiel in Wellenform gebracht werden, damit sie als CAPTCHA ihren Hauptzweck erfüllen können. Nun geht es damit ab zum User in Form eines Doppel-CAPTCHAs: Damit das Programm weiß, ob der User richtig lesen und schreiben kann, kommt noch ein zweites Spamvermeidungswort hinzu, als Kontrollinstanz.

Will man nun auf einer Site mit dieser neuen Art von CAPTCHAs einen Kommentar abgeben, muss man zwei Wörter eingeben, von denen man natürlich nicht weiß, welches schon bekannt ist und welches erst noch digitalisiert werden soll. Und schon ist ein weiteres Wort aus Shakespeares Gesamtwerk, das vorher nur als voluminöse Bilddatei vorlag, als kompakter Text gespeichert. Um wirklich sicher zu gehen, wird ein zu digitalisierendes Wort auch mehrfach verschickt.

Der Clou an dieser Idee, für die es auch schon ein fertig geschriebenes Programm gibt, hat zwei Seiten: Einerseits werden die vielen Nutzer des World Wide Web zu etwas benutzt, was (noch) kein Programm und kein Computer kann. Zum anderen macht es die schiere Masse: Pro Tag werden weltweit über 60 Millionen CAPTCHAs gelöst. Ein Buch ist damit im Nu digitalisiert und für den einzelnen User entsteht ein unwesentlicher Mehraufwand.

Einen kleinen Haken hat die Sache allerdings noch: Den Dienst von reCAPTCHA, so nennt sich dieser kostenlose CAPTCHA-Versender, gibt es bislang nur auf Englisch.

Sobald es diesen nützlichen Dienst auch in deutscher Sprache gibt, würde fudder.de mit Freude an der Digitalisierung des literarischen Erbes mitarbeiten. Beziehungsweise die Leser arbeiten lassen.

Mehr dazu: