Audio Voiceover mit KI

Oder wie Videos heute zu ihrer Stimme kommen

„… hat der Finanzminister heute auf einer Pressekonferenz bekannt gegeben …“, schallt es leise aus den Lautsprechern meines Autoradios, während ich im Feierabendverkehr nach Hause fahre. Die tiefe Bassstimme des Nachrichtensprechers, deren gleichmäßige Sprechweise Vertrauen weckt und den Nachrichten die nötige Ernsthaftigkeit verleiht, begleitet mich täglich mit Neuigkeiten aus dem In- und Ausland. Nach einem anstrengenden Tag höre ich oft nur noch halb zu. Doch was, wenn ich Ihnen sage, dass immer mehr Radiosender auf lebendige Nachrichtensprecher verzichten und stattdessen vermehrt auf künstlich erzeugte Voiceover setzen?

HAL 3000

Die Erstellung von Videoinhalten gehört zu meinem Arbeitsalltag und gewinnt zunehmend an Bedeutung. Oft handelt es sich dabei um Produktvideos, in denen einzelne Softwarefunktionen erläutert werden. Ich nutze eine Vielzahl von Tools, wie sie Adobe zur Verfügung stellt, um die Videos optisch ansprechend zu gestalten. Diese umfassen Möglichkeiten zur Audioverbesserung, zum Schneiden von Videoclips, zum Exportieren in diverse Formate und zur Animationserstellung. Zwar verwende ich viele dieser Funktionen nur begrenzt, aber selbst mit überschaubarem Aufwand lassen sich akzeptable Ergebnisse erzielen.

Eine Herausforderung waren bisher die sogenannten Voiceover, also von realen Personen eingesprochene Erzählerstimmen. Für solche Aufnahmen buchte man ein Studio, lieferte die Texte, ließ sie einsprechen und musste schlimmstenfalls im Nachhinein noch Änderungen vornehmen – was oft mit weiteren Studiobuchungen und Terminproblemen verbunden war.

Murf AI

Mein erster Versuch führte mich zu Murf AI, einem US-amerikanischen Unternehmen. Dieses webbasierte Tool bietet eine Vielzahl von Stimmen, insbesondere in der kostenpflichtigen Premiumversion, für zahlreiche Länder. Obwohl Murf AI die Aussprache für verschiedene Sprachversionen trainiert, klingen die englischen Varianten am realistischsten. Dies ist nicht verwunderlich, da der Hauptmarkt des US-Unternehmens nicht in Deutschland liegt. Die deutschen Stimmen hörten sich daher etwas blechern an und es fehlte ein entscheidendes Detail, auf das ich später eingehen werde.

Hier ein Soundbeispiel:

Synthesia

Ein Schritt weiter geht das britische Unternehmen Synthesia. Es bietet nicht nur Stimmen an, sondern liefert auch animierte Sprecher, die versuchen, das gesprochene Wort mit Gestik und Mimik zu verbinden. Inhalte können per Greenscreen-Technik in Videos eingefügt werden, was diesen mehr Plastizität und Authentizität verleiht. Schließlich vertrauen Menschen eher anderen Menschen.

Hier ein Videobeispiel:

Fliki

Auch das US-amerikanische Unternehmen Fliki bietet interessante Möglichkeiten. Fliki fokussiert sich auf die schnelle Erstellung von Inhalten für Social-Media-Kanäle. Eine intuitive Oberfläche ermöglicht es, aus wenigen Stichworten einen Video-Blogpost zu erstellen und diesen mit passenden Bildern zu untermauern. Doch der eigentliche Unterschied liegt woanders.

Warum Fliki realisitischere Voiceover erstellt

Haben Sie schon einmal bemerkt, dass Menschen beim Sprechen unwillkürlich atmen? Obwohl dies ein natürlicher Vorgang ist, wird er meist überhört. Genau dieses Atmen fehlt den meisten KI-Stimmen. Fliki hat sich diesem Detail gewidmet und seine “realistischen” Stimmen damit ausgestattet, wodurch sie dem Original erstaunlich nahekommen.

Fazit

Zusammenfassend lässt sich sagen, dass die Fortschritte in der KI-Technologie die Landschaft der Audioproduktion und Voiceover-Erstellung tiefgreifend verändern. Traditionelle Methoden, bei denen reale Sprecher in Studios aufgenommen wurden, weichen zunehmend effizienteren und kostengünstigeren KI-basierten Lösungen. Unternehmen wie Murf AI, Synthesia und Fliki sind Pioniere auf diesem Gebiet und bieten eine beeindruckende Palette an Möglichkeiten, von vielfältigen Stimmen bis hin zu animierten Sprechern. Insbesondere Fliki hebt sich durch seine Berücksichtigung kleiner, aber entscheidender Details wie der natürlichen Atmung ab und schafft es so, den menschlichen Sprechern näher zu kommen. Diese Entwicklung zeigt nicht nur das enorme Potenzial der KI in der Medienproduktion, sondern verändert auch die Art und Weise, wie wir Inhalte konsumieren und wahrnehmen.