Wenn die Stimme den Verbrecher entlarvt

Das musst du wissen

Die forensische Phonetik beruht auf der Erkenntnis, dass Stimmen individuell sind.
In der Schweiz werden in etwa 50 Gerichtsfällen jährlich Gutachten von forensischen Phonetikern benötigt.
Die Stimmanalyse ist noch nicht so zuverlässig wie ein Fingerabruck oder eine DNA-Analyse.

Schwarz vermummt tritt «Jihadi John» vor die Kamera. Er hält ein Messer in der Hand, neben ihm kniet eine Geisel. «Dies ist James Foley, ein amerikanischer Bürger», verkündet er und enthauptet den Journalisten. Es ist das erste von mehreren Videos auf denen zu sehen ist, wie «Jihadi John», wie er von den Briten genannt wird, westliche Geiseln und syrische Soldaten hinrichtet. 2014 setzten die USA 10 Millionen Dollar auf seinen Kopf aus. Was den Schlächter des IS schliesslich entlarvt, ist seine Sprache. Ermittler erkennen an seinem Akzent, dass der Vermummte aus West-London stammt und identifizieren ihn als den 27-jährigen Mohammed Emwazi – einen in Kuwait geborenen Briten.

Bei den Ermittlern, die «Jihadi John» zu Fall gebracht haben, handelt es sich um forensische Phonetiker. Diese nutzen das Phänomen, dass Stimmen individuell sind, als Mittel zur Aufklärung von Verbrechen. Ein Experte darin ist Volker Dellwo, Professor für Phonetik an der Universität Zürich. Seine Arbeitsgruppe ist an fast allen stimmlichen Gutachten in der Schweiz beteiligt. «Vor Gericht geht es am häufigsten darum, die Stimmen verschiedener Sprecher zu vergleichen und zu beurteilen, ob zwei Sprachsignale – eines vom Täter, eines vom Verdächtigten – von ein und demselben oder von zwei verschiedenen Sprechern stammen», sagt Dellwo. In einem kleineren Teil der Fälle beurteilt er umstrittene Äusserungen und stellt den Wortlaut des Gesagten phonetisch nach.

Als Experte gefragt ist Dellwo zudem, wenn die Polizei für eine Fahndung ein Sprecherprofil benötigt, um einen unbekannten Sprecher zu charakterisieren. «Unsere Stimme verrät nicht nur Geschlecht und Alter, sondern auch Merkmale unserer körperlichen Erscheinung, den kulturellen Hintergrund, unsere Laune oder den Alkoholkonsum», sagt Dellwo. Aus der Frequenz und dem Stimmenklang eines Sprechers können Experten ableiten, ob ein Sprecher mit dem Täter identisch ist oder nicht.

Computer-Methoden umstritten

Doch die Stimmanalyse hat ihre Haken: «Ist ein Mensch krank, gestresst, flüstert er oder verstellt er seine Stimme absichtlich, kann das dazu führen, dass die akustischen Charakteristika sich stark verändern», sagt Dellwo. Die Merkmale innerhalb einer Stimme unterschieden sich so stark, «dass man mit stimmlichem Material nicht so zuverlässig auf einen Täter schliessen kann wie mit einem Fingerabdruck oder einer DNA-Analyse.» Gut geschulte Ohren seien jedoch nachweislich ein Vorteil.

Könnten neue Technologien das Problem lösen? Nur beschränkt, sagt Dellwo. In der Praxis vielfach erprobt sind automatische Verfahren, bei der Sprechproben anhand ihrer Frequenzen verglichen werden. In einem anderen Ansatz, an dem zurzeit noch geforscht wird, extrahiert eine Software Merkmale aus einer Stimme und berechnet daraus Parameter, die auf die Anatomie des Sprechapparats schliessen lassen. So haben Computeringenieure in den USA kürzlich eine Software entwickelt, die nach 6-sekündigem Anhören der Stimme eines Menschen sein Phantombild erstellt. Mit erstaunlichen Resultaten.

Diese automatisierten Verfahren zur Mustererkennung seien im Allgemeinen sehr leistungsfähig und identifizierten einen Sprecher zuverlässig, sagt Dellwo. Dennoch hält er es nicht für verantwortungsbewusst, sich darauf zu verlassen: «Die Methoden sind sehr abstrakt und es ist nicht einfach zu interpretieren wie Resultat und Schlussfolgerung zusammenhängen.» Zudem könne in einem automatischen Verfahren nicht bestimmt werden, wie wahrscheinlich es ist, dass ein Sprecher falsch identifiziert wurde. Dellwo selbst verwendet automatische Verfahren vor Gericht ergänzend.

Grafik, die die Resultate der neuen Stimmanalysesoftware darstellt. Neben dem realen Portrait der Person wird das aufgrund der Stimme erstellte Phantombild gezeigt.

MIT CSAIL

Die automatisierte Software sei erstaunlich zuverlässig, meint Phonetiker Volker Dellwo.

Eine Grafik, die zeigt, dass die durch Stimmanalyse erstellten Portraits nicht immer stimmen.

MIT CSAIL

Aber auch das neue Verfahren birgt Fehlerquellen. In der Vergangenheit haben forensische Stimmanalysen sogar zu Fehlurteilen geführt.

Fest steht also, dass keine der Methoden der forensischen Phonetik vor Gericht absolut zuverlässig ist. Wie vier europäische Journalisten 2016 in einer breit angelegten Recherche aufdeckten, gibt es eine ganzen Reihe von Fehlurteilen. Die Journalisten fanden heraus, dass die Standards für forensische Analysen in den vergangenen zwei Jahrzehnten mehrfach umgangen wurden und schlossen daraus, dass in diesem Zeitraum mehr als 20 unzureichende oder fehlerhafte Stimmanalysen vor Gericht verwendet worden waren.

Kompetenzzentrum gegründet

Wie aber liesse sich die Stimmenerkennung verbessern? Wissenschaftler aus Deutschland und Österreich haben kürzlich eine Datenbank erstellt, in der sie stimmliche Merkmale von 200 deutschen Männern statistisch erfassten. Dank der Datenbank wissen sie nun, wie häufig Merkmale wie zum Beispiel Rauigkeit, Heiserkeit oder der Ton, den eine Lippenvorstülpung wie jene von Donald Trump erzeugt, bei deutschen Männern vorkommen. «Solche Referenzdatenbanken sind sehr wertvoll», sagt Dellwo. Je mehr solcher Daten vorhanden seien, desto besser wisse man, wie die Merkmale in der Bevölkerung verteilt seien. Und umso besser könne man einschätzen, wie wahrscheinlich es sei, dass bei zwei Sprachbeispielen einer bestimmten Bevölkerungsgruppe Merkmale übereinstimmen.

Um das Gebiet der forensischen Phonetik weiterzuentwickeln, hat Dellwos Institut im März diesen Jahres in Zusammenarbeit mit dem forensischen Institut der Kantons- und Stadtpolizei Zürich das Center for Forensic Phonetics and Acoustics (CFPA) gegründet. Dellwo selbst forscht mit seiner Gruppe daran, wie Personen ihren Sprachrhythmus variieren. Er erhofft sich dadurch Rückschlüsse auf die Anatomie des Artikulationsapparates. Dieses Jahr hat der Schweizerische Nationalfonds ein vierjähriges Projekt seiner Arbeitsgruppe bewilligt. Die Nachfrage rechtfertigt die Unterstützung des Bundes: Etwa 50 Anfragen um gerichtliche Gutachten landen pro Jahr auf Dellwos Schreibtisch.

Rätsel:

Versetze dich in die Lage eines forensichen Phonetikers und ordne die Schreistimme des Täters einer der vier normalen Sprecherstimmen zu.