Wie Computer sprechen lernen

Posted by Julia Werner  • 

KI versteht jetzt die Sprache besser als ein Mensch

KI versteht jetzt die Sprache besser als ein Mensch

Erstmals ist eine Künstliche Intelligenz in der Lage, das spontan gesprochene Wort nicht nur besser zu verstehen, sondern das Ergebnis auch schnell wiederzugeben. Diese Verzögerung wurde jetzt auf eine Sekunde gesenkt.

Eine Künstliche Intelligenz erkennt spontan gesprochene Worte bereits besser als ein Mensch. Auch die Verzögerung der Ausgaben konnte auf eine Sekunde gesenkt werden. (Bild: KIT Karlsruhe)

Ein Alltagsgespräch zu verfolgen und genau wiederzugeben ist nicht nur für einen Menschen aufwendig. Auch Forscher an Künstlicher Intelligenz (KI) arbeiten daran, das gesprochene Wort wiederzugeben. „Wenn Menschen miteinander sprechen, gibt es Abbrüche, Stotterer, Hesitationen wie ‚äh‘ oder ‚hm‘, Lacher und Huster“, sagt Alex Waibel, Professor für Informatik am KIT. „Oft werden Worte zudem noch undeutlich ausgesprochen.“ So sei es schon für Menschen schwierig, einen akkuraten Mitschrieb eines informellen Dialogs anzufertigen. „Einer Künstliche Intelligenz fiel das bislang noch schwerer“, erzählt der Spracherkennungs-Experte.

Ein Team aus KIT-Wissenschaftlern und Mitarbeitern der Firma KITES, einer Ausgründung aus dem KIT, hat nun weltweit erstmals ein Computersystem programmiert, das diese Aufgabe besser erledigt als Menschen und schneller ist als andere Systeme. Waibel hat bereits einen automatischen Live-Übersetzer entwickelt, der bei Universitätsvorlesungen aus dem Deutschen oder Englischen schritthalten kann mit der Vorlesung in die Sprachen ausländischer Studenten überträgt. Der „Lecture Translator“ ist seit 2012 in den Hörsälen des KIT im Einsatz. „Die Erkennung spontaner Sprache ist die wichtigste Komponente in diesem System“, erläutert Waibel, „da Fehler und Verzögerungen bei der Erkennung die Übersetzung unverständlich machen. Die menschliche Fehlerrate liegt hier bei um die 5,5%. Unser System erreicht 5,0%.“

Ergebnis wird innerhalb einer Sekunde ausgegeben

Allerdings sei nicht nur die Genauigkeit ausschlaggebend, sondern auch, wie rasch das System das Ergebnis ausgibt, damit Studenten der Vorlesung live folgen können. Diese Verzögerung konnten die Forscher erstmalig auf eine Sekunde reduzieren. Das sei der niedrigste Wert in der sogenannten Latenz, den je ein Spracherkennungssystem dieser Qualität erreicht habe, betont Waibel. Gemessen werden Fehlerrate und Verzögerung mit dem standardisierten und wissenschaftlich international anerkannten „SwitchboardBenchmark“-Test. Dieser gilt als bislang unerreichte Messlatte im Wettbewerb der internationalen KI-Forscher-Gemeinde, eine Maschine zu bauen, die an die menschliche Fähigkeit Spontansprache zu erkennen herankommt oder diese übertrifft. Inhalte oder Zusammenhänge verstehen könne ein Erkennungs-System alleine aber noch nicht, sagt Waibel.

„Es geht hier ausschließlich um die akustische Erkennung unter wissenschaftlich vergleichbaren Bedingungen.“ Dialog-, Übersetzungs- und weitere KI-Module können nun aber schneller und mit größerer Genauigkeit sprachliche Interaktion ermöglichen.

Jetzt Newsletter abonnieren Verpassen Sie nicht unsere besten Inhalte Geschäftliche E-Mail Bitte geben Sie eine gültige E-Mailadresse ein. Abonnieren Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Aufklappen für Details zu Ihrer Einwilligung Stand vom 15.04.2021 Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung. Einwilligung in die Verwendung von Daten zu Werbezwecken Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden. Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden. Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Recht auf Widerruf Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

(ID:46942348)

Künstliche Intelligenz, Sprache und die Frage der gesellschaftlichen Verantwortung

Autor: Michael Keusgen, CEO, ella media ag

Systeme, die auf Künstlicher Intelligenz (KI) basieren, haben in der Regel das Ziel, Menschen in ihren Handlungen zu unterstützen. Dabei eröffnen KI-Systeme neue Möglichkeiten, um Fehler zu minimieren, Prozesse effizienter zu gestalten und bestehende Probleme zu bearbeiten. Die Entwicklung der Künstlichen Intelligenz hat dabei das Potential, zunehmend Einfluss auf die Entscheidungen von Menschen zu nehmen. Deshalb ist ein verantwortungsvoller Umgang mit lernenden Systemen wichtig.

KI imitiert Sprache ohne Verständnis der Inhalte

KI selbst ist wertfrei, sie erfasst, analysiert und verarbeitet Sprache ausschließlich auf Basis der Daten, mit denen sie trainiert wurde. Dabei gibt KI bestehende Muster wieder, ohne den Inhalt der eigenen Texte tatsächlich zu verstehen. Das kann unerwünschte Folgen haben, wie beispielsweise die Reproduktion einer stereotypen Darstellung bestimmter Menschengruppen.

Ein bekanntes und gut erforschtes Beispiel ist die Diskriminierung von Frauen in KI-gestützten Bewerbungsprozessen – etwa, weil die Datengrundlage aus einer Zeit stammt, in der in dem spezifischen Berufsfeld fast ausschließlich Männer tätig waren.

Wer Sprach-KI entwickelt, trägt eine große Verantwortung

Sprachbasierte KI-Systeme sind immer nur so gut wie die Texte, von denen sie lernen. Deshalb müssen Systembetreiber und Entwickler bereits lange vor dem ersten Einsatz einer KI konsequent darauf achten, Verzerrungen und daraus folgende Diskriminierungen (Bias) durch Fehler bei der Datenerfassung und -auswahl oder der Verarbeitung der Daten auf Basis von Algorithmen zu erkennen. Das erfordert eine Werteorientierung und eine hohe Kritik- und Lernfähigkeit der Unternehmen und der Menschen dahinter.

Verantwortungsvoller Umgang mit Sprach-KI bedeutet für Unternehmen aber auch, dass sie bereits bei der Entwicklung einen möglichen Missbrauch der Technologie im Blick haben – etwa durch automatisiert erstellte Texte mit falschen oder absichtlich irreführenden Inhalten. KI-Systeme können darauf ausgerichtet werden, diese verfälschten Informationen in großer Menge und für bestimmte Zielgruppen zu erstellen – auch um den öffentlichen Diskus zu beeinflussen.

Eine kluge und zielorientierte Auswahl der Datenquellen beugt auch Missbrauch vor. Ein redaktionelles KI-System wie Carla, das ausschließlich auf Daten der großen Nachrichtenagenturen basiert, bietet kein Potential für Missbrauch im Rahmen von Desinformationskampagnen.

Sprach-KI eröffnet neue Wege im Kampf gegen Desinformation

Zur gesellschaftlichen Verantwortung der Unternehmen gehört aber auch die Frage, wie die KI zum Vorteil der Menschen eingesetzt werden kann. Im Erkennen von unbeabsichtigten Fehlern, Plagiaten, aber auch gezielten Fake News ist die künstliche Intelligenz den Menschen häufig bereits um Längen überlegen. Erste Anwendungen sind bereits im Einsatz. So können spezielle KI-Systeme, in Echtzeit mit Texten und anderen Social Media Daten gefüttert, bei der Bekämpfung von Bots unterstützen.

Wie Computer sprechen lernen

Zwei KIs unterhalten sich über Liebe: In dem Dialog, für Youtube nachgesprochen von Schauspielern, wollte Philosoph David Chalmers Anzeichen für menschenähnliche Intelligenz erkennen.

Algorithmen, die Sprache verstehen wie Menschen, könnten die Kommunikation mit Computern neu prägen. In den Wettlauf um die beste Sprach-KI steigt nun Deutschland ein.

Von Christian J. Meier

Erst klingt der Dialog über Liebe ganz alltäglich. Doch dann sagt "Hal" in dem Youtube-Video des Informatikers Alif Jakir: "Ich glaube, dass man absolut jeden lieben kann, egal wer er ist."

Spätestens jetzt wirkt das Gespräch unnatürlich, obwohl die künstlich generierten Gesichter echt aussehen. Denn auch das Gespräch ist synthetisch, erzeugt von einer speziellen Art künstlicher Intelligenz (KI), einem so genannten "Sprachmodell". Es heißt "GPT-3" und hat im letzten Jahr die Welt verblüfft. Der australische Sprachphilosoph David Chalmers wollte in der mit Eloquenz gepaarten Vielseitigkeit von GPT-3 sogar Anzeichen einer menschenähnlichen Intelligenz erkennen.

GPT-3, entwickelt von der kalifornischen Firma OpenAI, war damals das rechenstärkste Sprachmodell. Es produziert selbstständig Texte, die sich lesen, wie von Menschen verfasst. Wortgewandt behandelt die KI beliebige Themen, beantwortet Fragen, schreibt Geschichten, Dialoge oder Gedichte, übersetzt oder wandelt Alltagssprache in Programmiercode.

"Menschen werden immer natürlicher mit Computern sprechen"

Das Sprachmodell zeigte, dass KI ein recht breites Wissen über die Welt lernen und ausdrücken kann. Ein Qualitätssprung, der mittlerweile einen Wettlauf um noch rechenstärkere Sprachmodelle ausgelöst hat, an dem sich große amerikanische Techfirmen wie Google oder der Chiphersteller Nvidia beteiligen. Im Sommer trat China, das sich als zweite KI-Macht neben den USA positionieren will, mit seinem Sprachmodell "Wu Dao 2.0" in das Rennen ein. Im Dezember veröffentlichte schließlich auch die britische Google-Tochter DeepMind ihr Sprachmodell "Retro". Es soll dank einer externen Text-Datenbank, die wie ein Spickzettel verwendet wird, im Vorteil sein.

Im nächsten Jahr will auch Deutschland in den Wettlauf einsteigen. Ab Januar 2022 fördert das Bundeswirtschaftsministerium das Projekt OpenGPT-X, das ein europäisches Sprachmodell bauen soll. Beteiligt sind neben dem KI-Bundesverband acht weitere Partner, darunter KI-Firmen wie Aleph Alpha aus Heidelberg, das Deutsche Forschungszentrum für Künstliche Intelligenz, sowie mögliche Anwender.

"Sprachmodelle sind eine entscheidende Entwicklung", sagt Jörg Bienert vom KI-Bundesverband, ein Netzwerk aus deutschen KI-Unternehmen und -Experten. Sie seien die Basis für eine ganze Reihe von Anwendungen wie Chatbots oder automatisches Auswerten von Dokumenten.

"Menschen werden immer natürlicher mit Computern sprechen", ergänzt Jessica Heesen, Medienethikerin an der Universität Tübingen. Ein Dialog zwischen Mensch und Smartphone könnte sich dann so anhören: "Finde bitte das Dokument, das ich für den Vortrag am Samstag erstellt habe." Das Handy fragt nach: "Meinst du das mit der Umsatzgrafik drin?" Sprachmodelle könnten zur Benutzeroberfläche des Netzes werden. "Wer Computer sprechfähig macht, wird eine große Vormachtstellung auf dem Markt haben", meint Heesen.

Bienert sieht das als Herausforderung für den alten Kontinent. "Europa läuft Gefahr, von amerikanischen Produkten abhängig zu werden, wie bei Suchmaschinen", warnt er. US-Firmen würden dann die Daten europäischer Nutzer erhalten und mit diesen ihre Sprachmodelle weiter verbessern. Ein sich selbst verstärkender Kreislauf setzte ein, der zu übermächtigen Monopolen führte, fürchtet Bienert.

Deshalb soll OpenGPT-X eigene, europäische Akzente setzen - und nach Deutsch auch die anderen Sprachen des Kontinents lernen, betont Projektleiter Nicolas Flores-Herr vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme in Sankt Augustin. Darüber hinaus wolle das Projekt "europäische Werte umsetzen" und das Sprachmodell für die heimische Industrie attraktiv machen.

"Es geht uns nicht nur um höher, schneller, weiter", sagt Flores-Herr. Allerdings ist Größe ein wichtiger Faktor. Ein Sprachmodell ist eine gigantische Statistik darüber, wie Wörter in Beziehung zueinander stehen. "Wolken", zum Beispiel, wird häufig im Kontext mit "regnen" auftreten. Die Software lernt solche Beziehungen anhand von Milliarden Seiten realen Textes aus Webseiten und Büchern.

Technisch erfolgt das Lernen mit sogenannten neuronalen Netzen. Ähnlich wie im Gehirn tauschen darin künstliche Neuronen über Synapsen Signale untereinander aus. Beim Lernen justieren die einzelnen Synapsen, wie stark sie das Signal eines Neurons an ein anderes übertragen.

Im letzten Jahr besaß GPT-3 die meisten künstlichen Synapsen, 175 Milliarden. Dieses Jahr verzehnfachte Wu Dao 2.0 diese Zahl auf 1,75 Billionen. OpenAI arbeitet bereits am nächsten Sprung: GPT-4 soll hundert Billionen Synapsen erhalten, ähnlich viele wie im menschlichen Gehirn.

Je mehr künstliche Synapsen ein Sprachmodell besitzt und je mehr Text es beim Training verarbeitet hat, desto besser kann es raten, wie es ein Satzfragment ergänzen muss. Bei "Wolken ziehen auf, es wird bald ..." wäre "regnen" eine gute Wahl. In winterlichem Kontext jedoch wäre "schneien" passender. Auf diese Weise reiht die KI Wort an Wort, sodass auch längere Texte entstehen.

Der WDR will testen, ob KI Inhaltsangaben für die Mediathek schreiben kann

Die riesigen neuronalen Netze fressen viel Rechenkraft. Microsoft baute eigens für das Training von GPT-3 den nach eigenen Angaben fünftstärksten Superrechner der Welt. Im Gegenzug darf die Firma ihren Kunden Zugriff auf das Sprachmodell anbieten. Auch OpenGPT-X kann Superrechner nutzen, etwa am Forschungszentrum Jülich. Damit sollen Modelle trainiert und für konkrete industrielle Anwendungen optimiert werden. Als Nutzer ist etwa der WDR am Projekt beteiligt.

"Wir wollen ausprobieren, was wir mit OpenGPT-X machen können", sagt Dirk Maroni, Leiter der Abteilung Informationsmanagement bei dem Sender. Auch er sieht in den Sprachmodellen einen Qualitätssprung in der KI. Zwar können auch andere Algorithmen gut lesbare Sport- oder Wetterberichte erzeugen. "Ein großes Sprachmodell aber könnte solche Texte lebendiger machen, etwa indem es die spezielle Atmosphäre eines Lokalderbys miteinbezieht." Sprachmodelle seien auch stilistisch flexibel und könnten beispielsweise Texte in Leichter Sprache verfassen.

Maronis Team will testen, wie gut OpenGPT-X lange Texte versteht, etwa Transkripte von Podcasts oder Wortbeiträge. Das Sprachmodell könnte knappe Inhaltsangaben für die Mediathek erstellen. Eine Konkurrenz für die Journalisten des Hauses sieht er nicht, eher eine Unterstützung ihrer Arbeit. "Die Journalisten werden sich mehr auf das Inhaltliche und Kreative konzentrieren können", glaubt Maroni. Ein europäisches Sprachmodell findet Maroni wichtig. Durch sein Training mit deutschen, französischen oder italienischen Texten würde es europäische Wertvorstellungen aufsaugen.

Sprachmodelle reflektieren allerdings auch Vorurteile, die in einer Gesellschaft kursieren. So assoziierten frühe Texte von GPT-3 Berufe mit höherem Bildungsniveau eher mit Männern als mit Frauen. Die mögliche Diskriminierung von Gruppen mache Sprachmodelle zu "riskanten Anwendungen von KI", warnt Jessica Heesen. Die Qualität der Texte für das Training sei entscheidend. "Die Daten liegen nicht einfach vor", sagt die Medienethikerin. Sie müssten sorgfältig von Menschen erhoben und ausgewählt werden. Beim Training der KI flössen somit deren eigene Wertvorstellungen mit ein. "Mit solchen Dingen muss man umgehen lernen", sagt Heesen.

Der europäische Sprachcomputer soll gendergerecht und inklusiv texten

Das ist den Machern von OpenGPT-X bewusst. "Wir werden versuchen, das Thema Diskriminierung von vornherein in den Griff zu bekommen", sagt Flores-Herr. Ein Forschungsprojekt werde sich der gendergerechten und inklusiven Sprache von OpenGPT-X widmen, erklärt der Forscher. Das Team werde Trainingsdaten filtern und umarbeiten, - "veredeln", wie Flores-Herr sagt. So soll die Sprachsoftware, anders als GPT-3, die Vorurteile erst gar nicht erlernen.

Um genügend Text in allen 24 Sprachen der EU zu erlangen, "werden wir uns strecken müssen", befürchtet Flores-Herr. Wikipedia-Artikel reichten längst nicht aus. Eine gute Datenquelle sei das European Language Grid, ein EU-finanziertes Projekt, das Sprachtechnologien und Datensätze sammelt. "Damit sollten wir in wenigen Jahren ein mehrsprachiges Modell haben", sagt der Forscher.

Für konkrete Anwendungen könnten dann zusätzliche Daten der Anwender genutzt werden. "Zum Beispiel Wissensnetze", sagt Flores-Herr, also ein Netz, das die Beziehungen zwischen Begriffen darstellt. "So könnte das Fachwissen eines Anwenders, etwa einer Bank, in das Modell einfließen", sagt Flores-Herr. Da solche Daten wertvolles Wissen direkt in das Sprachmodell speisen, könnte OpenGPT-X die Konkurrenz in einigen Nischen übertrumpfen.

Flores-Herr hofft, dass Interessenten bald Schlange stehen werden, um OpenGPT-X zu nutzen. "Wir zielen nicht nur auf Industrie und Forschung, sondern auch auf den Mittelstand ab", sagt der Forscher. Das neue Sprachmodell werde für alle offen sein, im Sinne einer europäischen Infrastruktur.

Tagged:

  • Sprache der künstlichen Intelligenz
  • Leave a Reply