Das musst du wissen

  • Dehnbare Wörter, wie zum Beispiel «Alteeeeeer», tauchen in den Sozialen Medien oft auf.
  • Diese Wörter lassen sich nach bestimmten Mustern kategorisieren, wie eine neue Studie zeigt.
  • Das könnte in Zukunft dabei helfen, dass wir immer bessere Gespräche mit Computerprogrammen führen können.

«Hahahahaha», «Alteeeeeer», «neeeeeiiiiiiin»: Die Sprache auf Sozialen Medien ist ganz anders als jene in offiziellen Dokumenten, Büchern oder Zeitungen. Bald könnte dir die Autokorrektur aber selbst diese Wörter korrigieren und Spracherkennungsprogramme werden verstehen, was du damit meinst, ja sogar was du dabei fühlst. Denn drei Forschende der Universität von Vermont in Burlington haben fast 100 Milliarden Tweets untersucht und nun eine Methode entwickelt, um solche dehnbaren Wörter besser zu erkennen und zu kategorisieren. Die Ergebnisse veröffentlichten die Forscher im Fachmagazin Plos One.

Science-Check ✓

Studie: Hahahahaha, Duuuuude, Yeeessss!: A two-parameter characterization of stretchable words and the dynamics of mistypings and misspellingsKommentarDies ist ein Kommentar der Autorin / des AutorsDie Studie ist primär eine statistische Auswertung des Auftretens von dehnbaren Wörtern auf Twitter. Emotionale oder inhaltliche Aspekte wurde nicht spezifisch untersucht. Die entwickelte Methode bildet eine wichtige Datengrundlage für kommende linguistische Untersuchungen. Diese könnten Unterschiede zwischen Dehnungsmustern im Verlauf der Zeit, unterschiedlichen Regionen und Sprachen oder Intentionen untersuchen. Die Studie basiert allerdings nur auf lateinischen Buchstaben. Ähnlich könnten aber auch andere Buchstabensysteme sowie Interpunktion oder Emojis untersucht werden.Mehr Infos zu dieser Studie...

Bisher hatten Suchalgorithmen und Textverarbeitungsprogramme nämlich Mühe, solche dehnbaren Wörter zu erkennen und zu verstehen. Das ist vor allem ein Problem, wenn wir von Programmen, besonders Künstlichen Intelligenzen, erwarten, dass sie uns verstehen, korrigieren und auf uns reagieren.

_____________

📬 Das Neuste und Wichtigste aus der Wissenschaft, jeden Dienstag und Donnerstag per E-Mail:
Abonniere hier unseren Newsletter! ✉️

_____________

Um diese dehnbaren Wörter besser zu verstehen, entwickelten die Forscher nun ein Programm, dass alle Wörter in Buchstaben-Bausteine aufteilt. So konnten die Forscher zwei Dimensionen identifizieren, die zur Charakterisierung von dehnbaren Wörtern geeignet sind – die Balance und die Dehnung.

Die Balance beschreibt, wie gross das Verhältnis der wiederholten Buchstaben zu den anderen Buchstaben ist, welche Buchstaben also besonders dominant vertreten sind. «Hahahahahaha» ist dementsprechend ein sehr ausbalanciertes Wort, während «Toooooooooooor» eher unbalanciert ist. Die Dehnung wiederum sagt etwas darüber aus, wie oft eine Wiederholung stattfindet. Während «haha» wenig gedehnt ist, ist «hahahahahahahahahaha» also sehr gedehnt.

Je nachdem, wie sich ein Wort in diese zwei Dimensionen einordnen lässt, kann man Rückschlüsse auf die Intention und die Wirkung der Dehnung ziehen. Um das auch bildlich darzustellen haben die Forscher auf Grundlage der untersuchten Tweets sogenannte Rechtschreibbäume erstellt. Hat der Rechtschreibbaum einen oder mehrere Äste, die stark nach links oder rechts wachsen, wird das Wort eher unbalanciert verwendet, wenn in der Regel alle Buchstaben in gleichem Masse wiederholt werden und das Wort demnach balanciert ist, sieht man einen mittigen grossen Ast. An der Länge der Äste kann man sehen, wie oft die Wiederholung gemacht werden. Und an der Breite der einzelnen Äste, wie oft diese Option auf Twitter auftauchte.

Doch weshalb tauchen dehnbare Wörter überhaupt auf? Sie können emotionale Aspekte des Inhalts unterstreichen oder Effekte ersetzen, die beim Sprechen durch Gestik und Mimik erzeugt werden, wie kleine vorgängige Studien ergaben. Das war auch einer der Gründe, weshalb die Studie überhaupt durchgeführt wurde.

Die Forscher der Studie haben zur Auswertung von Emotionen in den Sozialen Medien bereits früher geforscht und das sogenannte Hedonometer entwickelt. Aufgrund der Wörter, die User twittern, wird ermittelt, wie glücklich diese waren. Es zeigte sich zum Beispiel: Am Samstag waren User ausgelassener als am Montag. Auch besondere Tage wie der Valentinstag hinterliessen ihre Spur in der Wortwahl.

Der Baum der gedehnten Wörter und das Programm dahinter sind nun in der Lage, in solchen Wörtern sogar Tippfehler und Rechtschreibfehler voneinander zu unterscheiden. Das könnte in Zukunft nicht nur Suchmaschinen und Spamfilter sondern auch Spracherkennungssysteme, Autokorrekturen und Chatbots verbessern. So werden sie in Zukunft vielleicht auch verstehen, wie beeindruckt du bist, wenn du schreibst: «Heyyyyyy, kannst du mir erklären, warum Basketballspieler immer soooooo riiiieeeeesig sind?»

Diesen Beitrag teilen
Unterstütze uns

regelmässige Spende