Spricht da ein Mensch oder eine Maschine?

Dass Bilder nicht immer die Wahrheit sagen, ist den meisten Menschen bewusst – spätestens seit es das Computerprogramm Photoshop gibt. Mit diesem lassen sich Fotos mit wenigen Klicks manipulieren. Meist sind dies harmlose Dinge, etwa wenn sich Stars die Hüften schlank mogeln. Doch es gibt auch weniger harmlose Manipulationen, welche sogar die Weltpolitik beeinflussen können: So hat Nordkorea im Jahr 2015 Fotos von startenden Kriegsraketen veröffentlicht, die gemäss Experten mit Photoshop gefälscht waren.

Geht es nach Adobe, dem Hersteller des Bildbearbeitungsprogramms, lassen sich nun bald auch Stimmen genauso einfach manipulieren wie Fotos. An seiner hauseigenen Konferenz Max hat die Firma schon 2016 ein Computerprogramm mit dem Namen VoCo demonstriert, das jede menschliche Stimme täuschend echt imitieren kann. Die in Zusammenarbeit mit Wissenschaftlern der Universität Princeton in New Jersey entwickelte Software erlernt dabei die Stimme einer Person, indem sie Tonaufnahmen analysiert. Schon 20 Minuten Tonmaterial – etwa aus einer aufgezeichneten Rede oder einem Gespräch – reichen aus, um den Algorithmus zu trainieren. Der Clou: Das Programm kann danach beliebige Dinge mit der Stimme jenes Menschen sagen. Auch solche, die gar nicht im ursprünglichen Tonmaterial enthalten waren. Dazu tippt der Benutzer einfach die gewünschten Worte in ein Eingabefeld.

Manipulieren leicht gemacht

Für das Verbessern von Aufnahmen kann das ganz nützlich sein, etwa indem ein undeutlich gesprochenes Wort korrigiert wird. Doch bei vielen Menschen löst der Computer als Stimmenimitator ein mulmiges Gefühl aus. «Ich kann gut verstehen, dass diese Technologie beängstigend wirkt», sagt Stephan Fehlmann, Business Development Manager bei der Schweizer Firma Spitch, die auf die Erkennung von Stimmen spezialisiert ist. Denn mit einer Software wie der von Adobe liessen sich beispielsweise auch Aussagen von Politikern oder Geschäftsleuten manipulieren. Oder Beweismittel fälschen und so Gerichtsverfahren beeinflussen. «Es wird garantiert Leute geben, die das versuchen», sagt Fehlmann. Erst recht, wenn Adobe das Programm dereinst als Teil der «Creative Suite» veröffentlicht.

Nicht nur das Verdrehen von Aussagen wird durch die neue Technologie einfacher. Imitiert jemand unsere Stimme mit einem Computer, stiehlt er damit auch einen Teil unserer Identität. Denn genauso wie der Fingerabdruck ist unsere Stimme einzigartig und wird daher immer öfter als Identifikationsmerkmal eingesetzt. Fehlmanns Firma Spitch entwickelt Systeme, die Personen anhand ihrer Stimme erkennen können, und stellt diese beispielsweise Banken oder Versicherungen zur Verfügung. Diese können damit einen Anrufer nach wenigen Sekunden eindeutig identifizieren, bevor sie mit ihm über sensible Konto- oder Kundendaten sprechen. Dadurch erübrigen sich die sonst üblichen Sicherheitsfragen wie das Geburtsdatum oder die Wohnadresse, die oft auch Verwandte und enge Freunde kennen und die deshalb eigentlich gar nicht so sicher sind. Auch die Swisscom setzt seit bald zwei Jahren ein ähnliches System ein, das Anrufer der Hotline allein anhand ihrer Stimme zweifelsfrei identifizieren kann.

Fälschern auf der Spur

Dass die Software von Adobe die Sicherheit unserer Bankkonten bedrohen könnte, bezweifelt Volker Dellwo vom Phonetischen Laboratorium der Uni Zürich. Er prüft zusammen mit dem Forensischen Institut Zürich Sprachaufnahmen auf ihre Echtheit, die beispielsweise in Gerichtsfällen als Beweismaterial dienen. «Ähnlich wie bei gefälschten Bildern gibt es auch bei Tonaufnahmen Möglichkeiten, um Manipulationen aufzudecken.» Mit einem speziellen Verfahren erkennt er beispielsweise, wenn einzelne Wörter herausgeschnitten oder verschoben wurden.

Zwar sei noch nicht klar, wie präzise die Adobe-Software arbeitet, weil sie noch nicht erhältlich ist und daher nicht getestet werden kann, sagt Dellwo. Doch: «Es ist schwer vorstellbar, dass man damit Tonaufnahmen bearbeiten kann, ohne dabei irgendwelche Spuren zu hinterlassen.»

Daher wäre es für Banken möglich, ihre Systeme entsprechend anzupassen. Zudem seien diese nicht ganz einfach zu knacken, weil man am Telefon ein Gespräch führen muss – ein vorgefertigter Satz aus dem Computer bringt da wenig. Allerdings scheint sich Adobe selbst der Problematik von Fälschungen bewusst zu sein und verspricht, eine Art digitales Wasserzeichen in die vom Computer generierten Sätze einzubauen.

Doch selbst wenn die perfekte Täuschung heute noch nicht möglich ist: «In ein paar Jahren wird es sicher Programme geben, die das können», ist Fehlmann überzeugt. Das Stimmsyntheseprogramm von Adobe ist auch nicht das einzige seiner Art: Andere Konzerne wie Google mit «WaveNet» arbeiten ebenfalls an künstlichen Stimmen.

«Wir Menschen werden den Unterschied zwischen einer echten und einer durch den Computer erzeugten Stimme bald nicht mehr bemerken», sagt Fehlmann. Im Vergleich zum Fälschen von Bildern hat für ihn die Manipulation von Gesprochenem eine noch grössere Tragweite: «Wir verwenden Sprache fast ausschliesslich dazu, um unsere Meinung mitzuteilen.» Dadurch könnten manipulierte Aussagen grösseren Eindruck hinterlassen und glaubwürdiger wirken, während wir Bildern eher misstrauen würden. «Insbesondere in Social-Media-Kanälen verbreiten sich gefälschte Nachrichten erfahrungsgemäss rasant.»

Diesen Beitrag teilen

Unterstütze unsWir sind auf dich angewiesen, damit wir gratis und werbefrei bleiben können.