KI erkennt Sprache besser als Menschen

Posted by Julia Werner  • 

Wie KI Sprache lernt – Wenn der Computer Texte schreibt

Sprache trainieren

Wie wir Menschen so muss auch eine Software Sprache zunächst lernen. Dabei werde sie mit etwa einhundertmal so vielen Texten trainiert, wie ein Mensch in seinem Leben lesen könne, erklärt Gerhard Paaß vom Fraunhofer Institut für Intelligente Analyse- und Informationssysteme. Anhand dieser Trainingstexte kann die Software dann errechnen, welches Wort mit hoher Wahrscheinlichkeit auf ein Wort folgen wird und so eigene Texte erstellen. Damit die Wahrscheinlichkeit berechnet werden kann, werden Wörter mit Vektoren dargestellt. Wörter mit ähnlicher Bedeutung bekommen einen ähnlichen Vektor. Durch diesen Unterbau funktionieren Sprachmodelle wie GPT-3 von Open AI.

Kreative und emphatische KI

Kreativität gilt eigentlich als eine sehr menschliche Eigenschaft. Mittlerweile ist die Entwicklung von Sprachmodellen allerdings so weit, dass eine künstliche Intelligenz auch Romane schreiben oder Musik komponieren kann.

In unserem Gehirn sind ja auch Verbindungen dafür verantwortlich, dass wir uns Geschichten ausdenken können. Insofern kann auch ein Sprachmodell entlang einer Storyline eine Geschichte erzeugen oder sich selbst eine Geschichte ausdenken. Gerhard Paaß, Fraunhofer IAIS

Auch eine ganze Spielewelt erschaffen, wie im Textadventure-Spiel „AI Dungeon“, ist für eine KI kein Problem mehr. In Sprachassistenten sorgen Algorithmen dafür, dass sie immer menschlicher klingen und auch emphatische Gespräche führen können.

Anja Bolle spricht mit dem Mathematiker und Buchautor Gerhard Paaß vom Fraunhofer IAIS über die Einsatzmöglichkeiten von intelligenten Sprachsystemen und die Entwicklung von Sprachmodellen. Das Fraunhofer IAIS ist auch an den Forschungen zu einem europäischen Sprachmodell beteiligt, das zukünftig über die europäische Cloud Gaia-X bereitgestellt werden soll.

Künstliche Intelligenz fürs Sprachenlernen

Alexa, Siri, Amazon Echo oder Google Home – sprachgesteuerte Systeme scheinen sich rasend schnell in unserem Leben zu verbreiten. Doch ihr Nutzen beim Erlernen von Fremdsprachen muss als begrenzt angesehen werden. Ihnen fehlen dafür schlicht die Flexibilität, die Kreativität und das soziale Bewusstsein eines echten Menschen.

Zurzeit befinden sich künstliche Intelligenzsysteme, die über Sprachbefehle gesteuert werden, auf einem scheinbar unaufhaltsamen Vormarsch. Schon lange steuern wir mittels sprachbasierter Software unser Smartphone. Seit neuestem finden sich außerdem in immer mehr Haushalten sprachgesteuerte Systeme, mit denen wir das Licht ein- oder ausschalten, die Heizung bedienen oder auf verbale Kommandos Musik abspielen lassen können. Alexa und Co. sind bei uns eingezogen.

All diese Systeme gehören in den Bereich der künstlichen Intelligenzen. Mit ihnen zeichnen die Technologie-Konzerne des Silicon Valley eine Vision von der Zukunft, in der Sprachsteuerung ein wesentlicher Bestandteil ist. Selbst in Online-Spielen, interaktivem Spielzeug oder Online-Kursen finden sich bereits heute sprachgesteuerte virtuelle Elemente. Da liegt es nahe, solche virtuellen Online-Tutoren auch für das Erlernen von Fremdsprachen zu nutzen. Der Vorteil liegt in der zeitlichen und örtlichen Unabhängigkeit, die diese Systeme ermöglichen.

Doch können künstliche Intelligenzen fürs Sprachenlernen wirklich einen persönlichen, menschlichen Lehrer ersetzen? Oder fehlen letztlich wichtige Bestandteile der menschlichen Interaktion, wie Kreativität, soziale Einflussfaktoren und geteiltes Wissen? Dieser Artikel bietet eine kritische Übersicht über den aktuellen Stand der Entwicklung von künstlicher Intelligenz fürs Sprachenlernen und versucht, eine vorläufige Einschätzung über deren Nutzen vorzunehmen.

Technische Umsetzung von Sprachlernsoftware

Klassische Sprachlernprogramme mit Sprachsteuerung – PC-gestützte Sprachlernprogramme mit einer grafischen Benutzeroberfläche gibt es schon eine ganze Weile. Dabei handelt es sich letztlich um digitale Versionen von klassischen Sprachlehrbüchern. Der Lernende füllt am PC Aufgaben aus, ordnet Vokabeln den passenden Abbildungen zu oder setzt Satzbausteine zu ganzen Sätzen zusammen.

Der Nachteil an diesen Lernprogrammen ist, dass sie lediglich mit vorformulierten Antwortmöglichkeiten arbeiten und so der freie, kreative Anteil an Sprachäußerungen, der für die menschliche Sprachkompetenz entscheidend ist, auf der Strecke bleibt. Damit orientieren sich diese Systeme an veralteten Lehrmethoden wie dem pattern drill, bei dem starre Satzmuster unflexibel eingeübt werden.

Bei diesen Programmen handelt es sich nicht im eigentlichen Sinne um künstliche Intelligenz, da sie auf der klassischen Desktop-Oberfläche beruhen. In neueren Systemen kommt jedoch immer häufiger Spracherkennungssoftware als Bestandteil hinzu, mittels derer der Lernende mündliche Antworten geben kann, die das System dann als richtig oder falsch bewertet.

Die Qualität ist dabei jedoch oft unzureichend, da schon bei Nebengeräuschen, einer etwas undeutlichen Sprechweise oder Heiserkeit keine sichere Erkennung mehr gewährleistet ist. Außerdem fehlt die Möglichkeit einer Rückmeldung über die korrekte Aussprache an den Lernenden, wie sie sonst durch eine reale Lehrperson gegeben werden kann.

Sprachlernprogramme mit virtuellem Tutor

Zur stärkeren Berücksichtigung mündlicher Anteile im Fremdspracherwerb wurden Programme entwickelt, die mit einem virtuellen Tutor oder einer virtuellen Tutorin arbeiten. Dieser oder diese sollen dem Lerner freie, natürliche, mündliche Interaktionen in der zu erlernenden Fremdsprache ermöglichen.Technisch basieren solche Systeme auf einfachen Chatbots, die auf bestimmte Schlüsselwörter mit vorformulierten Gesprächsbeiträgen reagieren.

Doch genau hier liegt auch schon das Problem dieser Anwendungen. Chatbots können lediglich auf vorgegebene Schlüsselwörter reagieren, die vorher einprogrammiert wurden und sie können auch lediglich vorprogrammierte Antworten geben. Mit spontanen, freien Äußerungen können sie nicht umgehen. Ebenso können sie die grammatikalische Korrektheit oder gar die situative Angemessenheit einer Äußerung nicht beurteilen. Für einfache, überschaubare und vor allem vorhersehbare Dialogsequenzen mag ein solcher Chatbot hilfreich sein. Als Verknüpfung von künstlicher Intelligenz und Sprachenlernen auch in komplexeren Gesprächssituationen ist er jedoch kaum geeignet.

Sprachlernsysteme mit pädagogischen Avataren

Die Weiterentwicklung der oben beschriebenen Chatbot-Systeme sind aufwendige Sprachlernprogramme mit Avataren. Hier wird ein künstlicher Avatar inklusive nonverbaler Kommunikationsfähigkeiten wie Gestik und Mimik entwickelt und genutzt, damit sich der Lernende mit dieser virtuellen Person wie mit einer echten Person in der Fremdsprache unterhalten kann. Doch diese technische Weiterentwicklung kann nicht darüber hinweg täuschen, dass die gleichen Grenzen wie bei einfachen Chatbots bestehen bleiben.

Dialoge mit einer künstlichen Intelligenz in Form eines Avatars können nur funktionieren, solange man nicht von den vorgesehenen Skripts abweicht. Unvorhersehbarkeit, Spontaneität und Kreativität sind jedoch entscheidende Merkmale der menschlichen Sprachkompetenz. Hier muss eine solche Anwendung daher zwangsläufig an ihre Grenzen stoßen.

Big-Data-Analyse

Die jüngsten technischen Fortschritte bei der Auswertung großer Datenmengen lassen sich auch für den Fremdsprachunterricht nutzen. Indem echte sprachliche Äußerungen von Muttersprachlern oder Muttersprachlerinnen technisch aufgearbeitet und ausgewertet werden, lassen sich große Datenbanken an Sprachwissen aufbauen, die im Unterschied zu den vorher genannten Systemen mit den Eigenheiten von tatsächlich gesprochenen Sprachäußerungen arbeiten. Die daraus entstehenden virtuellen Lexika sind daher deutlich näher an der Realität einer gesprochenen Sprache.

Als problematisch muss hier allerdings angesehen werden, dass jeder Dialog aufgezeichnet und gespeichert wird – in Zeiten der teils heftigen Diskussionen um den Datenschutz ein unhaltbares Vorgehen.

Vor- und Nachteile der künstlichen Intelligenz fürs Sprachenlernen

Worin liegen nun zusammenfassend die Vor- und Nachteile dieser künstlichen Sprachlernsysteme?

Als wesentlicher Nachteil aller beschriebenen Systeme muss festgehalten werden, dass diese lediglich mit einem begrenzten, vorher einprogrammierten Sprachmaterial arbeiten. Das liegt in der Natur der Sache, da es sich eben um technische Systeme handelt, die nach klaren, stringenten Mustern vorgehen.

Wesentliches Kennzeichen der menschlichen Sprache ist jedoch, dass sie gerade nicht stringent und vorhersehbar abläuft, sondern spontan und kreativ. Wir Menschen beherrschen mit der Sprache eine Fähigkeit, die es uns ermöglicht, jederzeit neue Gedanken und Ideen kreativ zu versprachlichen – eine Fähigkeit, die unsere Spezies entscheidend von Tieren abgrenzt.

Außerdem wird Sprache immer in sozialen Situationen eingesetzt, in denen wir geteiltes Wissen und Vorkenntnisse unseres Gesprächspartners voraussetzen und berücksichtigen. Ein pc-gestütztes Sprachlernsystem kann mit diesen Flexibilitäten naturgemäß nicht umgehen.

PC-gestützte Sprachlernprogramme mit grafischer Benutzeroberfläche könnten in Zukunft durchaus die klassischen Lehrbücher in Papierversion verdrängen. Jedoch kann ein virtueller Tutor oder Avatar keine reale Lehrperson ersetzen. Dazu fehlen ihm wesentliche kognitive und soziale Fähigkeiten – letztlich fehlt ihm das Bewusstsein.

Sehr wohl können solche Systeme jedoch als sinnvolle Ergänzung zu Präsenzkursen dienen. Beispielsweise können sie einen durchaus motivierenden Rahmen für die doch recht stupide Wiederholung von Vokabeln bieten. Für persönlich etwas zurückhaltendere Lerner könnten virtuelle Tutoren außerdem einen geschützten Rahmen zum Ausprobieren ihrer mündlichen Sprachfähigkeiten schaffen. Manch einem mag das zunächst leichter fallen, als in einer großen Lerngruppe offen sprechen zu müssen.

Doch entscheidend ist das „zunächst“. Wer eine Fremdsprache wirklich beherrschen will, muss eines vor allem tun: sie sprechen. Je fortgeschrittener ein Lerner ist, desto wichtiger wird die Anwendung der Sprache in echten sozialen Interaktionen, und desto wichtiger wird das Feedback eines realen Lehrers.

Interessant könnten künstliche Sprachlernsysteme auch dort sein, wo ein Präsenzkurs kaum möglich ist. Unter anderem können Berufstätige damit auch nach Feierabend flexibel üben, wo ihnen sonst schlicht die Zeit fehlen würde, einen Sprachkurs zu besuchen. Für Migranten, die auf einen Platz im Deutschkurs warten, können entsprechende Anwendungen durchaus dabei helfen, einen ersten Grundwortschatz aufzubauen, um sich im Alltag besser zurechtfinden zu können.

Künstliche Intelligenz und Sprachenlernen können also durchaus zusammen passen: für Anfänger und Anfängerinnen in einer Fremdsprache und als Vorbereitung oder Ergänzung für einen Sprachkurs. Eine reale menschliche Lehrkraft werden sie jedoch nie ersetzen können.

KI erkennt Sprache besser als Menschen

© moc.yabaxip tlareg IK

Eine Künstliche Intelligenz (KI) konnte bei der Erkennung von Alltagsgesprächen erstmals eine höhere Genauigkeit als Menschen erreichen. In Zukunft könnte die Technologie zum Beispiel als Basis für automatische Übersetzungen dienen.

Karlsruhe (Deutschland). Sprachassistenten wie Alexa, Cortana oder Siri ermöglichen es automatisiert Transkription gesprochener Texte und Übersetzungen zu erstellen. Die Spracherkennungssysteme nutzen dazu künstliche neuronale Netzwerke, die akustische Signale anhand von Bibliotheken einzelne Silben und Wörtern zuordnen. Die Ergebnisse sind bei direkter Ansprache der Assistenten oder bei einem vorgelesenen Text inzwischen sehr gut, im Alltag treten aber noch oft Probleme auf, die wie eine Studie der Ruhr-Universität-Bochum (RUB) kürzlich gezeigt hat, auch dazu führen können, dass Sprachassistenten ungewollt durch falsch verstandene Signalwörter aktiviert werden.

Auch Gespräche zwischen mehreren Menschen sorgen derzeit noch häufig für Probleme. Laut Alex Waibel vom Karlsruher Institut für Technologie (KIT) „gibt es Abbrüche, Stotterer, Fülllaute wie ‚äh‘ oder ‚hm‘ und auch Lacher oder Huster, wenn Menschen miteinander sprechen.“ Außerdem werden, wie Waibel erklärt „Worte zudem oft noch undeutlich ausgesprochen.“ Dies führte dazu, dass selbst Menschen Probleme dabei haben eine exakte Transkription eines solchen informellen Dialogs zu erstellen. Noch größere Schwierigkeiten hat dabei jedoch eine Künstliche Intelligenz (KI).

Alltägliche Gespräche problematisch für Künstliche Intelligenz

Laut einem bei arXiv erschienenen Preprint ist Wissenschaftlern um Waibel nun die Entwicklung einer KI gelungen, die auch alltägliche Gespräche schneller und besser als Menschen transkribiert. Als Basis des neuen Systems dient eine Technologie, die in Echtzeit Universitätsvorlesungen aus dem Deutschen und Englischen übersetzt. Dazu werden sogenannte Encoder-Decoder-Netzwerke verwendet, die akustische Signale analysieren und ihnen Wörter zuordnen. Laut Waibel „ist die Erkennung spontaner Sprache die wichtigste Komponente in diesem System, weil Fehler und Verzögerungen die Übersetzung schnell unverständlich machen.“

Genauigkeit erhöht und Latenz verringert

Nun haben die Wissenschaftler des KIT das System deutlich weiterentwickelt und dabei vor allem die Latenz signifikant verringert. Waibel und sein Team nutzten dafür einen Ansatz, der auf der Wahrscheinlichkeit bestimmter Wortkombinationen basiert und verknüpften diesen mit zwei anderen Erkennungsmodulen.

In einem standardisierten Test hörte die neue Spracherkennung Gesprächsausschnitte aus einer Sammlung von etwa 2.000 Stunden Telefongesprächen, die das System automatisch transkribieren sollte. Laut Waibel liegt „die Fehlerrate von Menschen hierbei um die 5,5 Prozent.“ Die KI kam hingegen nur auf eine Fehlerrate von 5,0 Prozent und übertrifft damit erstmals den Menschen bei der Erkennung von Alltagsgesprächen. Auch die Latenzzeit, also die Verzögerung zwischen dem Eintreffen des Signals und dem Ergebnis ist mit im Mittel 1,63 Sekunden sehr schnell, kommt aber noch nicht ganz an die im Mittel 1 Sekunde Latenz eines Menschen heran.

Genutzt werden könnte das neue System in Zukunft zum Beispiel als Basis für automatische Übersetzungen oder für andere Szenarien, in denen Computer natürliche Sprache verarbeiten sollen.

arXiv:2010.03449

Tagged:

  • Sprache der künstlichen Intelligenz
  • Leave a Reply