Das musst du wissen

  • Wissenschaftler haben ein System entwickelt, das aus Gehirnsignalen gesprochene Sätze erzeugen kann.
  • Die Methode funktioniert zweistufig: KI decodiert Hirnströme für Muskelbewegungen und übersetzt diese dann in Sprache.
  • Das ist ein grosser Schritt auf dem Weg zu einer Sprachprothese für Menschen, die nicht mehr sprechen können.

Stephen Hawking wird es nicht mehr erleben können, für viele andere könnte es ein Weg aus der Isolation sein: Wissenschaftler der Universität von San Francisco haben ein System entwickelt, das Sprachsignale im Gehirn decodieren und dann in Sprache verwandeln kann.

Versuche, Gehirnsignale hörbar zu machen, gibt es schon länger. Bisher resultierten daraus aber nur einzelne, wenig verständliche Worte. Drei Neurowissenschaftlern ist es nun gelungen, ganze Sätze mit einer natürlichen Stimme zu synthetisieren. Ihre Ergebnisse haben sie im April in der Zeitschrift «Nature» publiziert.

Mit Gedankenlesen hat das nichts zu tun – der Vorgang gleicht eher stillem Sprechen. Neurologisch gesehen ist Sprechen in etwa das Komplizierteste, wozu Menschen fähig sind. Bevor wir auch nur einen Ton von uns geben, entscheiden wir bereits, was wir sagen wollen, in welcher Sprache und in welcher Form. Wir treffen Entscheidungen über Satzbau und Betonung. Was danach kommt, ist keinesfalls einfacher. Mehr als 100 Muskeln bewegen sich nach den Regieanweisungen des Gehirns, damit ein Ton entsteht. Die Lunge pumpt Luft, Wangen, Kehlkopf und Zunge bewegen sich.

Dieses Sprachballett haben die Wissenschaftler hörbar gemacht. Dafür fingen sie die neuronalen Signale ab, die den Sprechapparat steuern, und trainierten lernende Software an einem virtuellen Modell des Sprachapparates.

Um die Hirnströme zu decodieren, trainierten die Forscher die KI zuerst mit fünf Freiwilligen, denen als Teil einer Epilepsie-Therapie ein Elektrodenpad auf die Oberfläche des Gehirns eingepflanzt worden war. Diese hörten und sprachen hunderte Sätze, während die Elektroden ihre Gehirnaktivität aufzeichneten. Dadurch lernte ein Algorithmus, ein neuronales Signal einer spezifischen motorischen Aktivität zuzuordnen, beispielsweise einer Bewegung der Zunge. Ein zweites Programm setzte diese Bewegungsdaten in akustische Signale und schliesslich in Sprache um. Tat der Proband nur so, als würde er sprechen, ohne dabei einen Ton zu machen, verstand und synthetisierte das System den Satz ebenfalls.

Probleme macht das englische «th»

Das Ergebnis des zweistufigen Prozesses hört sich etwas verwaschen an, etwa wie bei einem Schlaganfallpatienten, und ist, je nach Satz, mehr oder weniger verständlich. Denn ganz wie beim menschlichen Lernen hapert es mit der Aussprache gelegentlich noch.

Wie sehr, das hängt vom Gesagten ab. Den Zungenbrecher «Is this seesaw safe» (ist diese Schaukel sicher) konnten alle Testhörer gut verstehen. Bei komplexeren Sätzen wie «at twilight on the twelfth day we’ll have Chablis» (in der Dämmerung des zwölften Tages werden wir Chablis trinken) erkannten sie wenigstens ein Wort nicht richtig. Die Laute «Sh» und «z» sowie mehrsilbige Worte sind einfacher zu verstehen. Probleme hat das System dafür mit dem englischen «th».

Die künstliche Stimme ähnelt in Rhythmus und Melodie der des Probanden. Wie eine individuelle Stimme klingt, hängt unter anderem vom Körperbau ab, beispielsweise der Grösse des Kiefers, der Lage der Zähne, der Form des Gaumens und des Kehlkopfes sowie von deren Bewegungen.

Dafür, dass diese Methode auch dann funktioniert, wenn sich ein Mensch nur vorstellt zu sprechen, spricht zweierlei: Tat der Proband nur so, als würde er sprechen, ohne dabei einen Ton zu machen, synthetisierte die Software den gleichen Satz. Und die Sprachausgabe gelang auch dann, wenn das System nicht auf den betreffenden Satz trainiert worden war.

Freiwillige, die die synthetisierten Sätze abhörten, konnten zwischen 21 und 43 Prozent der synthetisierten Sätze fehlerfrei transkribieren. Wie viele, hing davon ab, wie gross der Wortschatz war, den sie dafür zur Verfügung gestellt bekamen. Je mehr Wahlmöglichkeiten, desto grösser wurde die Fehlerrate.

Die neue Methode ist den bisherigen Modellen der künstlichen Spracherzeugung klar überlegen. Dabei erweist sich die Zweistufigkeit, also das Übertragen von Signalen in Artikulation und erst dann in Sprache, als Vorteil. Bisherige Modelle übertragen Signale der Sprachwahrnehmung aus dem Gehirn direkt in Sprache, was nur bedingt gelang.

Die Studie beweist, dass es grundsätzlich möglich ist, ein Brain-Computer-Interface zu konstruieren, das mit einer fast natürlichen Stimme spricht und sich in annehmbarer Geschwindigkeit unterhalten kann.

Mehr als ein «Proof of Principle» sind die Versuche jedoch nicht. «Wir haben gezeigt, dass wir Sprache simulieren können, die genauer und natürlicher klingt als synthetisierte Sprache, die auf der Extraktion von Klangdarstellungen aus dem Gehirn basiert», kommentierte der Hauptautor der Studie, Edward F. Chang, gegenüber der «New York Times».

iStock

Das neue System, das Sprachsignale im Gehirn decodiert und dann in Sprache umwandelt, ist den bisherigen Modellen der künstlichen Spracherzeugung überlegen.

Sprache für die Stummen

Für Menschen, die aufgrund einer Lähmung oder eines Unfalls kaum oder gar nicht in der Lage sind, sich mitzuteilen, ist die Studie ein grosser Fortschritt. Derzeit müssen «Locked-in»-Patienten mit Hilfe von Augen- oder Muskelbewegungen Wörter aus einzelnen Buchstaben zusammensetzen, um sich mitzuteilen. Stephen Hawking nutzte einen seiner Wangenmuskeln, um Worte zu formen. Ein mühsames Unterfangen, bei dem pro Minute etwa acht bis zehn Wörter übermittelt werden. Bei gesprochener Sprache sind es 120 bis 150. Sprachprothesen, selbst wenn sie nur einzelne Wörter übermitteln können, würden die Kommunikation von Schlaganfallpatienten, Gelähmten oder an ALS Erkrankten wesentlich verbessern. Einige Fehler wären dabei in Kauf zu nehmen.

Obwohl die Gehirnforschung derzeit grosse Fortschritte macht, ist es zu einer Sprachprothese, die flüssiges Sprechen erlaubt, noch ein weiter Weg. Nicht nur deshalb, weil die Anzahl möglicher Versuchspersonen für klinische Tests gering sein dürfte. Sondern auch, weil die Decodierung nicht bei allen Menschen gleich funktioniert. Die Beziehung zwischen Muskelbewegung und Sprache lässt sich zwar auf andere Menschen übertragen. Für die Decodierung der Gehirnaktivität gilt das aber nicht. Das System muss für jeden Nutzer individuell eingestellt werden. An Personen, von denen keine Sprachproben vorliegen oder die nie sprechen konnten, wurde die Methode zudem noch nicht getestet.

Aktuelles Thema in der Wissenschaft

Die Forschung an Gehirnströmen, mit deren Signalen Menschen Maschinen steuern können, ist das Thema der Stunde. Prothesen mit denen Gelähmte gehen und Dinge greifen können, gibt es schon seit einigen Jahren, zumindest im Laborexperiment. Meist brauchen sie dazu einen im Gehirn implantierten Chip, damit die Signale sauber erfasst werden können. In die andere Richtung, vom Computer zum Gehirn, funktioniert die Übertragung noch weniger gut. So können die Träger ihre Prothesen zwar bewegen, diese melden jedoch nicht zurück, wenn sie etwas «fühlen».

Die Medizin erhofft sich von der Neurotechnik Behandlungsmöglichkeiten für Erkrankungen wie Alzheimer, Parkinson und Epilepsie. Die Industrie sieht neue Möglichkeiten, Maschinen oder gar Autos zu steuern. Facebook investiert seit mehreren Jahren in die Forschung an Brain-Computer-Interfaces (BCI), nach Angaben von Mark Zuckerberg, damit «Sie direkt aus Ihrem Gehirn heraus etwa fünfmal schneller tippen können, als Sie es heute auf Ihrem Handy können». Und Tesla-Chef Elon Musk kündigte im April 2019 Neuigkeiten von «Neurolink» an. Die 2016 von ihm gegründete Firma arbeitet ebenfalls an einer Gehirn-Maschine-Schnittstelle. Musks Ziel: die mentalen Fähigkeiten des Menschen so zu erweitern, dass er langfristig mit der Entwicklung von KI mithalten kann.

Du willst mehr wissen?

Hier wird die neue Methode nochmals im Video erklärt:


Diesen Beitrag teilen
Unterstütze uns

regelmässige Spende