Filmbranche · 20. Juni 2018

Eine neue Ära für Untertitelungen

Jeder kennt Untertitel in Filmen. Festivalgänger sowieso, die die Filme in Originalversionen mit entsprechender Übersetzung sehen, auch in DVDs oder Streaming Plattformen sind Untertitel für Cineasten Pflicht. Und sicherlich kennt der eine oder andere auch noch die Teletexttafel 150 im Videotext verschiedener Fernsehsender, die Gehörlosenfassungen von Filmen anbieten. Diese haben allesamt einen entscheidenden Nachteil: bisher konnten Untertitel nur wenig der akustischen Atmosphäre eines Films einfangen, am allerwenigsten die Emotionen der verschiedenen Figuren.

Das Team Silicon Surfer – bestehend aus Dr. Tim Schlippe, Angelo Stitz und Prof. Dr. Matthias Wölfel – hat WaveFont entwickelt, das Untertitelungen auf eine völlig neue Ebene hebt. Dr. Tim Schlippe promovierte im Bereich der Sprachverarbeitung am Karlsruher Institut für Technologie Karlsruhe (KIT) und ist Geschäftsführer von Silicon Surfer. Dr. Matthias Wölfel ist derzeit Professor für Intuitive und Perzeptive Benutzungsschnittstellen an der Hochschule Karlsruhe. Zuvor war er Professor für Interaktive Medien an der Hochschule Furtwangen (HFU) und arbeitete im Bereich der Mensch-Maschine-Interaktion, User Experience, Interface- und Interaktion Design im Spannungsfeld zwischen Technologie und Kunst. Außerdem war er Professor für Interaction Design an der Hochschule Pforzheim, wo er Angelo Stitz als Bachelorstudenten der Visuellen Kommunikation betreute. Angelo Stitz ist Grafikdesigner und Typographie-Experte. Derzeit absolviert er seinen Master in Visual Communication am Royal College of Art in London und steht dem Silicon Surfer-Team als Freelancer bei der Entwicklung neuer Schriften und Designaufgaben tatkräftig zur Seite. Ein Interview Mit Dr. Tim Schlippe über WaveFont.

Herr Schlippe, was genau steckt hinter WaveFont?

Im Gegensatz zum gesprochenen Wort enthält das geschriebene Wort deutlich weniger Informationen: Zum Beispiel werden Eigenschaften und Emotionen in der gesprochenen Sprache durch Lautstärke, Tonhöhe und Geschwindigkeit ausgedrückt. Fehlen diese, kann es schwerer werden, einen Text richtig zu interpretieren. Ironie wird z. B. häufig schlechter nachvollzogen. Des Weiteren wirkt der Text in seiner visuellen Ausdruckskraft monotoner und weniger interessant.

Um diesen Mangel zu kompensieren, wird in neueren Medien wie SMS oder WhatsApp der Text meist mit Ideogrammen, sogenannten Emojis, ergänzt. Diese sind aber nur teilweise in der Lage Emotionen abzubilden.

Während sich Bild und Ton weiterentwickelt haben, gab es keine Weiterentwicklung bei der Schrift: Bewegtbilder wurden zunächst in schwarz-weiß dargestellt, dann in Farbe und mittlerweile in 3D Stereo. Beim Ton gab es zuerst Mono-, dann Stereo- und mittlerweile Surround-Sound. Durch diese Entwicklungen wurden mehr Informationen übertragen. Bei der Schrift ist es jedoch genau umgekehrt: Druckbuchstaben haben die Handschrift ersetzt. Dabei gingen Informationen verloren, wie Geschlecht und Emotion des Schreibers.

Mit unserer Technologie und Darstellungsweise WaveFont haben wir eine Lösung entwickelt, die den Informationsverlust in herkömmlicher Schrift überwindet: WaveFont formatiert die Schrift so, wie etwas gesprochen oder gelesen wird. Wenn jemand spricht, können mit WaveFont Lautstärke, Geschwindigkeit und sogar Tonhöhe assoziativ dargestellt werden, z. B., wenn jemand lauter spricht, wird die Schrift dicker, wenn jemand schneller spricht, schmaler. Laut unserer Studie ergeben sich die folgenden Vorteile: 1. Die Betonungen werden veranschaulicht. 2. Die Spracheigenschaften und Sprechstil einer Person werden reflektiert und im Text von den Lesern wiedererkannt. 3. Im Gegensatz zum herkömmlichen Einsatz von Schrift kann sich der Leser deutlich besser vorstellen, wie etwas gesprochen oder gemeint ist.

WaveFont hat das Potential, das Leseerlebnis bei Büchern und Untertiteln zu revolutionieren, weil somit auch persönliche Eigenschaften und Emotionen im Schriftbild abgebildet werden können. Dadurch wirkt der Text eigenständiger und lebendiger, weckt Neugier und der Leser wird tiefer in die Narration hineingezogen. Als Ersatz für herkömmliche Untertitel sehen wir einen erheblichen Mehrwert für Schwerhörige und Gehörlose sowie ausländische Mitbürger: Insbesondere können schwerhörige und gehörlose Menschen von WaveFont profitieren, da sie durch unsere Technologie Zugang zu Informationen haben, von denen sie bisher ausgeschlossen waren.

Wie entstand die Idee zu WaveFont?

Unser Team Silicon Surfer besteht aus Absolventen des Karlsruhe Institut für Technologie (KIT) und der Hochschule Pforzheim. Seit drei Jahren beschäftigen wir uns intensiv mit der Thematik, wie sich die neuen technologischen Möglichkeiten, die sich durch den schnellen Fortschritt in der IT ergeben, auch auf Schrift auswirken können. Wir begannen Experimente durchzuführen, um Schrift in Echtzeit an die spezifischen Anforderungen des Lesers automatisch anzupassen. Vor ca. zwei Jahren kamen wir durch den Vergleich von gesprochener und geschriebener Sprache auf die Idee, Informationen der gesprochenen Sprache wie z. B. Lautstärke im Schriftbild direkt darzustellen – WaveFont war geboren. Wir fanden unsere Idee spannend und begannen sie in einer ersten Version zu implementieren.

Basierend auf der von uns entwickelten Technologie, die Text in WaveFont generiert und anzeigt, führten wir Analysen in Bezug auf Akzeptanz, Informationsgewinn und Vermarktung durch. Außerdem entwickelten wir ein interaktives Demosystem. Wir veröffentlichten ein Paper über WaveFont auf der International Conference on Speech Technology and Human-Computer Dialog (SpeD 2015) in Bukarest. Unser Demosystem zeigten wir auf der Konferenz Mensch & Computer (MuC 2015) und auf der Ausstellung GLOBALE: Infosphäre ZKM | Zentrum für Kunst und Medientechnologie Karlsruhe. Außerdem folgte unser Team der Einladung vom KIT und stellte unsere Technologie auf der CeBIT 2016 aus. Weitere Ausstellungen und Präsentationen folgten. Zum Beispiel durften wir als Gewinner des Wettbewerbs „Ideentanke“ der MFG Innovationsagentur Baden-Württemberg und des Wettbewerbs "Neuland 2.0" von der Leipziger Messe GmbH, WaveFont auf der Frankfurter Buchmesse 2016 und auf der Leipziger Buchmesse 2017 ausstellen.

Hatten Sie zuvor mit gehörlosen bzw. hörbehinderten Menschen zu tun gehabt?

Zu Beginn unserer Recherchen und Experimente eher weniger. Unsere Vermutung, dass WaveFont auch für Gehörlose interessant ist, ergab sich aus einem Gespräch mit Herrn Eberhard, Inhaber des Studios für Gebärdensprache vis-a-vis und Gebärdensprachen-Lehrer in Mannheim. Bei diesem Gespräch lernten wir, dass die Eigenschaften von gesprochener Sprache für Gehörlose relevanter sind als wir zunächst dachten. Auch wenn Lautstärke für einen Gehörlosen „nicht existiert“, sind sehr wohl Emotionen wichtig und hilfreich, die über die Stimme zwischen Hörenden kommuniziert werden. Über WaveFont werden diese Emotionen erstmals sichtbar und nachvollziehbar – für Gehörlose und Hörende. Auch wenn dies aus aktueller Sicht noch vielleicht ungewohnt

erscheint, eröffnet WaveFont neues Potential der Verständigung. Wir können uns gut vorstellen, mit Herrn Eberhard oder anderen Einrichtungen und Vereinen Studien durchzuführen, um WaveFont weiterzuentwickeln.

Wie funktioniert WaveFont? Mit welchen Elementen/Stilmitteln wird gearbeitet?

Ausgangspunkt für unser Verfahren zur Erzeugung von Text in WaveFont ist die gesprochene Sprache. Diese liegt bereits digital in einer Datei vor, z. B. bei einem Film, oder wird über ein Mikrofon aufgenommen. Die Aussprache der Sätze, Wörter und einzelnen Buchstaben wird dann analysiert. Derzeit werden Geschwindigkeit und Lautstärke ausgewertet und in Zahlenwerte umgewandelt.

Im nächsten Schritt werden diese Werte auf die Schriftformatierung adaptiert. Zum Beispiel resultiert ein laut gesprochenes Wort in einer fetten Schrift, die mehr visuelle Aufmerksamkeit erzeugt. Ein sehr langsames gesprochenes Wort, das man mit einer langsamen ausgeführten Geste wie in Zeitlupe vergleichen könnte, erzeugt breitere Buchstaben. Breite Buchstaben bilden breitere Wörter und „verlängern“ die Zeit, die man zum Lesen braucht. Auch andere visuelle Darstellungsweisen oder Spracheigenschaften sind denkbar, die spezielle Zielgruppen von Lesern berücksichtigen.

Woran arbeiten Sie im Moment?

Wir sind dabei, unsere Technologie auszubauen und zu optimieren. Wir arbeiten u. a. an einem Service, der Videos aus dem Internet mit WaveFont-Untertiteln anzeigt. Online-Angebote wie YouTube, Netflix oder TED sind sehr gefragt. Dort ist die Untertitelung in unterschiedlichen Sprachen besonders relevant. WaveFont hat das Potential, dynamisch für unterschiedliche Sprachen und Anwendungsgebiete erzeugt und in Videos eingebunden zu werden.

Wir stellen uns gerade den technischen Herausforderungen, WaveFont in solchen Medien einzusetzen. Zunächst werden einzelne Videos aus YouTube in deutscher Sprache umgesetzt, für die herkömmliche Untertitel bereits verfügbar sind. Dieses Angebot möchten wir schrittweise ausbauen. Unser Ziel ist es, diesen Service für verschiedene Portale mit einem riesigen Angebot für viele andere Sprachen anzubieten, damit Menschen weltweit profitieren können.

Welche Pläne gibt es in Bezug auf Wave Font?

Unser Ziel ist es, WaveFont als festen Bestandteil in Untertiteln für Film und Fernsehen sowie in E-Books und Büchern zu etablieren. Dabei streben wir an, zunächst kleinere Pilotprojekte mit Fernsehanstalten, Online Publishers und Print Magazinen zu starten. Verschiedene Medien erfordern verschiedene Ansätze, um WaveFont zugänglich zu machen. Unser Fokus liegt zunächst stark auf Film- und Fernsehangeboten, da wir uns von der Zusammenarbeit mit Gehörlosen besondere Einblicke erhoffen, von denen unsere Technologie und nicht zuletzt Gehörlose profitieren werden.

Mein Projekt verbessert vor allem das Film- und Fernseherlebnis hörgeschädigter Menschen. Weltweit gelten 360 Millionen als hörgeschädigt, das sind 5,3 Prozent der Erdbevölkerung. In Europa wird jeder Sechste als schwerhörig eingestuft. In Deutschland sind 80 Tausend gehörlos und 16 Millionen schwerhörig. Diese Menschen haben ein eingeschränktes Film- und Fernseherlebnis, weil sie Informationen und Emotionen aus der Stimme überhaupt nicht oder nur eingeschränkt erleben können.

Mit meinen WaveFont-Untertiteln werden Informationen und Emotionen aus der Stimme deutlich besser transportiert als es herkömmliche Untertitel schaffen. Deshalb sind meine Ziele, diese tolle Technologie so ausbauen, dass sie problemlos im Internet und beim Fernsehen verwendet werden kann und dann einen Service anbieten, der Untertitel in der WaveFont-Darstellung produziert für Fernsehsender, Filmproduzenten, Streaming-Anbieter, Mediathek-Betreiber und Soziale Medien, etc.

Herzlichen Dank für dieses spannende Gespräch und viel Erfolg mit Ihrem Produkt!

Hinweis der Redaktion: Das Projekt kann über die Crowdfunding-Plattform Startnext unterstützt werden.