Sprachsynthese der eigenen Stimme
Wer meinen Eintrag zu Sprachsynthese mit Bark, Elevenlabs und Murf.ai noch nicht gelesen hat, kann das hier noch nachholen. Damals habe ich angekündigt, dass ich einen eigenen Test durchführen werde. Nach einigen Recherchen und Ausprobieren kann ich das nun nachholen.
Auf Github liegen viele Projekte, um die eigene Sprache zu klonen. Dabei müssen mehr oder weniger lange Schnipsel vorgelesen werden, die die KI-Systeme dann analysieren und Sprachmelodie und Klang kopieren. Danach können diese mehr oder weniger gut auf Text angewendet werden.
Das kann z.B. bei Menschen helfen, die wissen, dass sie bald ihre Stimme verlieren - etwa durch eine Operation wegen einer Krankheit. Oder Kreative, die sehr viel Content in kurzer Zeit produzieren wollen. Oder auch z.B. das eigene Blog um einen Podcast zu erweitern.
Durch meine Arbeit an der IU habe ich viel Material aus aufgezeichneten Feedback-Runden. Es liegt als MP3 vor und umfasst mittlerweile einige Stunden. Für den Test habe ich nun etwa 6 Minuten auf Elevenlabs geworfen. Das Analysieren der MP3-Dateien mit der eigenen Stimme geht quasi innerhalb von Sekunden und anschließend kann jeder Text synthetisiert werden.
Aber hört selbst. Hier ist der vorige Absatz als MP3 verlinkt!
Zum Vergleich habe ich den gleichen Absatz noch einmal selber eingesprochen.
Wie ihr hören könnt, ist das Ergebnis schon recht gut. Mein selbst vorgelesener Teil ist etwas dynamischer, das mag an der Aufnahmesituation liegen oder auch daran, dass die hochgeladenen MP3-Dateien eher sachlich zu sprechen waren.
Ich überlege daher tatsächlich, ob ich für weitere Blog-Einträge einen Mini-Podcast produzieren lassen soll. Der Text liegt vor und vielleicht ist ein Game Design / Techblog als Podcast im Bereich von 2 - 3 Minuten pro Folge eine schöne Ergänzung.
Das kann z.B. bei Menschen helfen, die wissen, dass sie bald ihre Stimme verlieren - etwa durch eine Operation wegen einer Krankheit. Oder Kreative, die sehr viel Content in kurzer Zeit produzieren wollen. Oder auch z.B. das eigene Blog um einen Podcast zu erweitern.
Durch meine Arbeit an der IU habe ich viel Material aus aufgezeichneten Feedback-Runden. Es liegt als MP3 vor und umfasst mittlerweile einige Stunden. Für den Test habe ich nun etwa 6 Minuten auf Elevenlabs geworfen. Das Analysieren der MP3-Dateien mit der eigenen Stimme geht quasi innerhalb von Sekunden und anschließend kann jeder Text synthetisiert werden.
Aber hört selbst. Hier ist der vorige Absatz als MP3 verlinkt!
Zum Vergleich habe ich den gleichen Absatz noch einmal selber eingesprochen.
Wie ihr hören könnt, ist das Ergebnis schon recht gut. Mein selbst vorgelesener Teil ist etwas dynamischer, das mag an der Aufnahmesituation liegen oder auch daran, dass die hochgeladenen MP3-Dateien eher sachlich zu sprechen waren.
Ich überlege daher tatsächlich, ob ich für weitere Blog-Einträge einen Mini-Podcast produzieren lassen soll. Der Text liegt vor und vielleicht ist ein Game Design / Techblog als Podcast im Bereich von 2 - 3 Minuten pro Folge eine schöne Ergänzung.