Google bringt Maschinen das Lesen bei

Ein Google-Forscherteam hat eine Methode entwickelt, Maschinen das Lesen von natürlicher Sprache beizubringen. Dazu füttern die Forscher die Computer mit Unmengen von kommentierten Nachrichtenartikeln. Ziel ist es, den Maschinen beizubringen, deren Inhalt zu verstehen und dazu Fragen zu beantworten.

Das Deep-Mind-Projekt von Google bringt Maschinen bei, selbstständig Texte zu lesen und zu verstehen. (Foto: Flickr/@sage_solar/CC by 2.0)

Das Deep-Mind-Projekt von Google bringt Maschinen bei, selbstständig Texte zu lesen und zu verstehen. (Foto: Flickr/@sage_solar/CC by 2.0)

Das so genannte Deep Learning ist derzeit eine der wichtigsten Entwicklungen auf dem Weg zu künstlicher Intelligenz. Der Begriff beschreibt eine Methode, bei der Maschinen über ihre einprogrammierten Informationen hinaus selbstständig Neues lernen können, seien es spezielle Bewegung, Bilderkennung oder gar Videospiele. Maschinen beizubringen, Dokumente in natürlichen Sprache zu lesen, bleibt eine besondere Herausforderung, der sich nun ein Forscherteam um Googles Deep-Mind-Projekt widmet.

Maschinelle Lesesysteme können auf ihre Fähigkeiten hin getestet werden, indem sie Fragen über den Inhalt der Dokumente, die sie gesehen haben, beantworten. Bisher fehlten jedoch groß angelegte Tests und Testdatensätze für diese Art der Auswertung. Wissenschaftler definieren nun eine neue Methode, die diesen Engpass löst und im großen Maßstab Daten über das Leseverständnis liefert. Diese Methode „erlaubt die Entwicklung einer neuen Art von Aufmerksamkeit-basierten tiefgehenden neuronalen Netzen, die lernen, echte Dokumente zu lesen und komplexe Fragen dazu mit minimalem Vorwissen der Sprachstruktur zu beantworten.“

Um Computern die natürliche Sprache beizubringen, füttern die Forscher sie mit Unmengen von kommentierten Zeitungsartikeln – und bringen ihnen bei, deren Inhalt zu verstehen. Das Ziel ist es laut Deep Minds Projektbeschreibung, natürliche Sprache zu verarbeiten – also ein Dokument zu lesen und dann Fragen zu dessen Inhalt beantworten zu können. Dazu brauchen die Maschinen vor allem eines: riesige Datenmengen, die für die Maschinen kommentiert und mit Erläuterungen versehen sind.

Eine solche Datensammlung böten bestimmte Zeitungen, so ein Forscherteam um Karl Moritz Hermann bei Deep Mind in London. Wie der Wissenschaftler dem Magazin Technology Review erklärte, sei der spezielle Schreibstil der Online-Nachrichten von Daily Mail und CNN dazu geeignet. Also nutzt Deep Mind die Menge der online veröffentlichten Artikel von CNN und Daily Mail dazu, Computern das Lesen beizubringen. Praktisch könnte dies Auswirkungen auf alle Bereiche des Internets haben: So müssen Artikel nicht mehr in für Computer lesbare Sprache übersetzt und dazu etwa mit Schlagwörtern versehen werden: Die Maschinen verstehen Texte auch ganz ohne Hilfsmittel und können Fragen dazu in natürlicher Sprache beantworten.

Auf der Website der Daily Mail, Mailonline und CNN online werden Nachrichten mit den wichtigsten Angaben darüber als Stichpunkte versehen, die unabhängig von dem Text geschrieben werden. „Von zentraler Bedeutung ist, dass diese Zusammenfassungen abstrahierender Natur sind und nicht einfach kopierte Sätze aus den Dokumenten“, so Hermann. Daraus schufen die Forscher eine kommentierte Datenbank: mit den Nachrichtenartikeln als Text und den Aufzählungspunkten als Erläuterung. Die Datenbank umfasst bereits 110.000 Artikel von CNN und 218.000 Artikel der Daily Mail.

Das mit den Daten gefütterte neuronale Netzwerk kann bereits 60 Prozent aller Fragen beantworten. Die Methode untersucht meist Worte, die im Zusammenhang mit einer Frage am häufigsten vorkommen. Allerdings funktioniert das entsprechend bisher am besten mit journalistischen Texten, da hier die zugrundeliegende Textstruktur immer ähnlich ist. Mit Literatur oder gar Poesie kommen die Maschinen hingegen noch nicht zurecht.

Mehr auf DMN.

Wir freuen uns auf Ihre Kommentare zu diesem Artikel.

Bitte verwenden Sie dazu unsere Facebook-Seite - hier.