Artikelsuche

Wählen Sie ein Produkt aus

Supportverzeichnis von null

Entdecken Sie alle Artikel von null (Last Updated )

Keine Artikel gefunden.

Suchergebnisse

Keine Artikel gefunden.

AI Assistant: Hochrealistisches Audio produzieren

Artikel zuletzt aktualisiert am 28.04.2026

Als Kursautor möchten Sie mehr tun, als nur Informationen zu präsentieren — Sie möchten multisensorische E-Learning-Erlebnisse schaffen, die bei den Lernenden ankommen. Der kreative Einsatz von Sound kann Ihnen dabei helfen. Mit den Text-to-Speech - und Soundeffektfunktionen von AI Assistant können Sie äußerst realistische KI-generierte Stimmen und Soundeffekte für immersivere und zugänglichere Inhalte erstellen.

Ursprünglich konnte auf diese beiden Funktionen nur in Storyline 360 zugegriffen werden. Ab dem Update vom Juli 2025 kann der AI Assistant in Rise 360 jedoch Text-to-Speech-Erzählungen generieren. Besuchen Sie diese Benutzeranleitung, um mit der Erstellung von KI-generierten Erzählungen in Rise 360 zu beginnen.

In Storyline 360 können Sie über das Drop-down-Menü „Audio einfügen“ im AI Assistant Assistant-Menü in der Multifunktionsleiste auf diese Funktionen zugreifen. Wenn Sie sich in der Folienansicht befinden, finden Sie sie unter der Registerkarte Home oder Einfügen oder chatten Sie mit AI Assistant im Seitenbereich, um zusätzlichen Komfort zu bieten.

Erwecken Sie Erzählungen mit KI-generierten Stimmen zum Leben

Wenn Sie jemals klassisches Text-to-Speech verwendet haben, haben Sie sich wahrscheinlich gewünscht, dass die Stimmen weniger, nun ja, roboterhaft klingen würden. Die Text-to-Speech-Funktion von AI Assistant erweckt Erzählungen mit kontextsensitiven, KI-generierten Stimmen zum Leben, die natürlicher und menschlicher klingen! Schauen Sie sich den Qualitätsunterschied zwischen einer Standardstimme, einer neuronalen Stimme und einer KI-generierten Stimme an, indem Sie auf die Links zu den folgenden Text-to-Speech-Beispielen klicken.

Klicken Sie zunächst im AI Assistant Assistant-Menü auf das Symbol „Audio einfügen“, um das Dialogfeld „AI-Audio generieren“ zu öffnen. Auf der Registerkarte Stimmen wird eine Bibliothek mit KI-generierten Stimmen angezeigt, die Sie nach Geschlecht, Alter und Akzent filtern können. Die Stimmen verfügen außerdem über Beschreibungen wie „tief“, „selbstbewusst“, „knackig“, „intensiv“ und „beruhigend“ sowie Kategorien, anhand derer Sie ihre idealen Anwendungsfälle bestimmen können, von Nachrichtensendungen über Meditation bis hin zu ASMR. Finden Sie diese Eigenschaften unter dem Namen der Stimme und verwenden Sie die Play-Taste, um eine Vorschau der Stimme anzuzeigen.

Derzeit stehen 52 vorgefertigte Stimmen zur Auswahl, und du kannst deine Favoriten markieren, indem du auf das Herzsymbol klickst. Auf diese Weise können Sie ganz einfach auf Ihre bevorzugten Stimmen zugreifen, ohne durch die Liste scrollen zu müssen. Beachten Sie, dass Stimmen, die als „Legacy“ gekennzeichnet sind, nicht aktualisiert werden, wenn sich zukünftige KI-Modelle verbessern.

Schalten Sie die Option „Ansicht“ auf „Favoriten“ um, um alle Ihre Lieblingsstimmen zu finden, oder „Im Projekt“, um die Stimmen zu sehen, die im aktuellen Projekt verwendet werden. Wenn Sie sich für eine Stimme entschieden haben, klicken Sie auf die Schaltfläche Verwenden, um zur Registerkarte Text-to-Speech zu wechseln. Die von Ihnen gewählte Stimme ist bereits vorausgewählt.

Geben Sie als Nächstes Ihr Skript in das dafür vorgesehene Textfeld ein oder klicken Sie auf den Link Aus Foliennotizen hinzufügen, um Notizen von Ihrer Folie zu kopieren. Das Skript kann maximal 5.000 Zeichen lang sein. Lassen Sie aus Gründen der Barrierefreiheit das Kontrollkästchen Untertitel generieren aktiviert — AI Assistant generiert automatisch Untertitel. Anhand des CC-Labels, das neben jeder Ausgabe erscheint, können Sie sofort feststellen, ob Ihr Text-to-Speech-Kommentar Untertitel enthält.

Weitere Stimmen finden Sie in der Sprachbibliothek

Zusätzlich zu den vorgefertigten Stimmen haben Sie auch Zugriff auf eine erweiterte Sprachbibliothek mit Tausenden von ultrarealistischen, KI-generierten Stimmen, die nach Alter, Geschlecht und Anwendungsfall gefiltert werden können. Finden Sie in der Sprachbibliothek die richtige Stimme für Ihre Inhalte, indem Sie sich die folgenden Benutzerhandbücher ansehen.

Kündigungsfrist für die Entfernung von Stimmen

Für eine Stimme kann eine Kündigungsfrist gelten, die festlegt, wie lange du auf die Stimme zugreifen kannst, falls ihr Ersteller beschließt, sie aus der Sprachbibliothek zu entfernen. In diesem Fall ist die entfernte Stimme nicht mehr in der Bibliothek verfügbar. Wenn Sie sie zuvor zu Meine Stimmen in Storyline 360 oder zu Favoriten in Rise 360 hinzugefügt haben, erscheint die entfernte Stimme weiterhin in Ihrer Liste und kann verwendet werden, um neue Inhalte zu generieren, aber in Storyline 360 sehen Sie eine Warnung und das Datum, an dem sie nicht mehr verfügbar ist. Nach Ablauf der Kündigungsfrist zeigt die Stimme einen Fehler an und sie kann nicht mehr in der Vorschau angezeigt oder zur Generierung neuer Inhalte verwendet werden. Sie können es entfernen, um einen Ihrer benutzerdefinierten Sprachslots freizugeben.

Die meisten Stimmen haben Kündigungsfristen, manche jedoch nicht. Stimmen ohne Kündigungsfrist verschwinden sofort aus der Sprachbibliothek, wenn der Stimmenersteller beschließt, sie zu löschen. Generierte Inhalte mit einer Stimme, die aus der Sprachbibliothek entfernt wurde, funktionieren weiterhin als normale Audiodatei.

Passen Sie die Spracheinstellungen an

Im Gegensatz zu klassischem Text-to-Speech können die KI-generierten Stimmen in der Text-to-Speech-Funktion von AI Assistant für eine maßgeschneiderte Sprachwiedergabe angepasst werden. Mit der Einstellung Modell können Sie aus drei verschiedenen Optionen wählen:

v3 (Beta) — Ausdrucksstärkste Version mit hoher emotionaler Bandbreite und kontextuellem Verständnis in über 70 Sprachen. Erlaubt maximal 3.000 Zeichen. Beachten Sie, dass dieses Modell aktiv weiterentwickelt wird. Die Funktionen können sich ändern, oder es kann zu unerwartetem Verhalten kommen, wenn wir es weiter verbessern. Die besten Ergebnisse erzielen Sie, wenn Sie sich im Folgenden einige Techniken zur Benutzereingabe ansehen.
Multilingual v2 (Standardmodell) — Extrem stabile und außergewöhnlich genaue, naturgetreue Sprache mit support für 29 Sprachen. Erlaubt ein Maximum von 10.000 Zeichen.
Flash v2.5 — Etwas weniger stabil, kann aber mit support für 32 Sprachen schneller generieren. Erlaubt ein Maximum von 40.000 Zeichen.

Profi-Tipp: Manche Stimmen klingen bei bestimmten Modellen besser, und manche Modelle schneiden in bestimmten Sprachen besser ab. Experimentieren Sie mit verschiedenen Kombinationen, um herauszufinden, was am besten funktioniert. Zum Beispiel klingt die Matilda-Stimme auf Spanisch mit dem Multilingual v2-Modell natürlicher als mit v3.

Die Stabilitätseinstellung steuert das Gleichgewicht zwischen der Stabilität und der Zufälligkeit der Stimme. Die Geschwindigkeit bestimmt das Tempo, und Similarity bestimmt, wie genau sich der AI Assistant bei der Reproduktion an die Originalstimme halten soll.

Zu den weiteren Einstellungen gehören Stilüberhöhung, wodurch der Stil der Originalstimme verstärkt wird, und Speaker Boost, wodurch die Ähnlichkeit zwischen synthetisierter Sprache und der Stimme verbessert wird. Beachten Sie, dass die Generierung Ihrer Sprache länger dauert, wenn eine dieser Einstellungen angepasst wird.

Spielen Sie mit diesen Einstellungen herum, um die richtige Balance für Ihre Inhalte zu finden. In der folgenden Tabelle sind die Standardwerte für den Schieberegler für jede Einstellung aufgeführt. Für das Modell v3 ist Stabilität die einzig verfügbare Option.

Einstellung	Storyline 360	Rise 360
Stabilität	0,50	50
Geschwindigkeit	1,00	100
Ähnlichkeit	1,00	100
Stil: Übertreibung	0,00	0
Lautsprecherverstärkung (Checkbox)	Überprüft	Überprüft

Hinweis: Einige Stimmen im Multilingual v2-Modell neigen dazu, beim Generieren langer Clips eine inkonsistente Lautstärke zu haben, die gegen Ende ausgeblendet wird. Dies ist ein bekanntes Problem mit dem zugrunde liegenden Modell, und unser KI-Subprozessor für Text-to-Speech arbeitet daran, es zu beheben. In der Zwischenzeit schlagen wir die folgenden Behelfslösungen vor:

Verwenden Sie eine andere Stimme
Wechseln Sie zum Flash v2.5-Modell
Erhöhen Sie die Stabilität der Stimme
Teilen Sie Ihren Text manuell in kleinere Teile auf, um kürzere Clips zu erstellen

Muss ich SSML verwenden?

AI Assistant support die Sprachsynthese-Auszeichnungssprache (SSML) nur begrenzt, da KI-generierte Stimmen darauf ausgelegt sind, die Beziehung zwischen Wörtern zu verstehen und die Sprachausgabe entsprechend anzupassen. Wenn Sie das Tempo manuell steuern müssen, können Sie eine Pause hinzufügen. Der konsistenteste Weg, dies zu tun, besteht darin, die Syntax <break time="1.5s" /> in Ihr Skript einzufügen. Dadurch entsteht eine exakte und natürliche Pause in der Rede. Zum Beispiel:

<break time="1.5s" />Katzen sind mit ihren scharfen Sinnen geschickte Jäger.

Verwenden Sie Sekunden, um eine Pause von bis zu drei Sekunden Länge zu beschreiben.

Sie können einen einfachen Gedankenstrich - oder einen EM-Dash verwenden—, um eine kurze Pause einzufügen, oder mehrere Bindestriche für eine längere Pause. Manchmal funktionieren Ellipsen ... auch, um eine Pause zwischen Wörtern einzufügen. Diese Optionen funktionieren jedoch möglicherweise nicht konsistent. Aus Konsistenzgründen empfehlen wir daher, die obige Syntax zu verwenden. Denken Sie jedoch daran, dass eine übermäßige Anzahl von Break-Tags möglicherweise zu Instabilität führen kann.

Techniken zur Informationsabfrage für Version 3 (Beta)

Das Modell v3 (Beta) führt emotionale Steuerung über Audio-Tags ein, sodass Stimmen unter anderem lachen, flüstern, sarkastisch sein oder Neugierde zeigen können.

In der folgenden Tabelle sind verschiedene Tags aufgeführt, mit denen Sie die Stimmübertragung und den emotionalen Ausdruck steuern sowie Hintergrundgeräusche und Effekte hinzufügen können. Sie enthält auch einige experimentelle Tags für kreative Zwecke.

Stimme und Emotion

Geräusche und Effekte

Experimentell

[lacht], [lacht stärker], [fängt an zu lachen], [keucht]
[flüstert]
[seufzt], [atmet aus]
[sarkastisch], [neugierig], [aufgeregt], [weinend], [schnaubt], [boshaft]

Beispiel: [flüstert] Schau jetzt nicht hin, aber ich glaube, sie haben uns gehört.

[Schuss], [Applaus], [Klatschen], [Explosion]
[schluckt], [schluckt]

Beispiel: [Applaus] Nun, das lief besser als erwartet. [Explosion] Macht nichts.

[starker X-Akzent] (X durch den gewünschten Akzent ersetzen)
[singt], [Woo]

Beispiel: [starker französischer Akzent] Zat ist nicht das, was ich mir vorgestellt habe, non non non.

Abgesehen von den Audio-Tags wirkt sich auch die Zeichensetzung auf die Übertragung aus. Ellipsen (...) fügen Pausen hinzu, Großschreibung betont bestimmte Wörter oder Ausdrücke und Standardinterpunktion ahmt den natürlichen Sprachrhythmus nach. Zum Beispiel: „Es war SEHR erfolgreich! ... [fängt an zu lachen] Kannst du es glauben?“

Tipps:

Verwenden Sie Audio-Tags, die der Persönlichkeit der Stimme entsprechen. Eine ruhige, meditative Stimme schreit nicht, und eine energiereiche Stimme flüstert nicht überzeugend.
Sehr kurze Eingabeaufforderungen können zu inkonsistenten Ergebnissen führen. Für eine konsistentere, zielgerichtetere Ausgabe empfehlen wir Eingabeaufforderungen mit mehr als 250 Zeichen.
Einige experimentelle Tags sind bei allen Stimmen möglicherweise weniger einheitlich. Vor Gebrauch gründlich testen.
Kombinieren Sie mehrere Tags für eine komplexe emotionale Übertragung. Probieren Sie verschiedene Kombinationen aus, um herauszufinden, was für Ihre gewählte Stimme am besten geeignet ist.
Die obige Liste ist lediglich ein Ausgangspunkt. Möglicherweise gibt es effektivere Tags. Experimentieren Sie mit der Kombination von Gefühlszuständen und Aktionen, um herauszufinden, was für Ihren Anwendungsfall am besten geeignet ist.
Verwenden Sie natürliche Sprache, richtige Interpunktion und klare emotionale Hinweise, um die besten Ergebnisse zu erzielen.

Mehrsprachige Stimmen erweitern Ihre Reichweite

Ein weiterer überzeugender Vorteil von KI-generiertem Text-to-Speech ist die Fähigkeit, Sprachlücken zu überbrücken, sodass Sie mit einem internationalen Publikum in Kontakt treten können. Dank der support von mehr als 70 Sprachen, je nach Modell — darunter auch einige mit mehreren Akzenten und Dialekten — trägt die Text-to-Speech-Funktion von AI Assistant dazu bei, dass Ihre Inhalte bei einem globalen Publikum ankommen.

Sie müssen lediglich Ihr Skript in der unterstützten Sprache eingeben oder einfügen, die AI Assistant verwenden soll. (Auch wenn in der Sprachbeschreibung ein bestimmter Akzent oder eine bestimmte Sprache angegeben ist, generiert AI Assistant die Erzählung in der Sprache, die in Ihrem Drehbuch verwendet wird.) Beachten Sie, dass einige Stimmen in der Regel am besten mit bestimmten Akzenten oder Sprachen funktionieren. Experimentieren Sie also gerne mit verschiedenen Stimmen, um die beste Stimme für Ihre Bedürfnisse zu finden.

Die folgende Tabelle bietet einen kurzen Überblick über die unterstützten Sprachen.

Verfügbar in Version 3 (Beta), Multilingual v2 und Flash v2.5:

Arabisch (Saudi-Arabien)
Arabisch (VAE)
Bulgarisch
Chinesisch
kroatisch
Tschechisch
dänisch
Holländisch
Englisch (Australien)
Englisch (Kanada)
Englisch (Großbritannien)
Englisch (USA)
Philippinisch
Finnisch
Französisch (Kanada)
Französisch (Frankreich)
Deutsch
griechisch

Hindi
Indonesisch
Italienisch
Japanisch
koreanisch
malaiisch
polnisch
Portugiesisch (Brasilien)
Portugiesisch (Portugal)
rumänisch
Russisch
slowakisch
Spanisch (Mexiko)
Spanisch (Spanien)
schwedisch
Tamilisch
türkisch
ukrainisch

Verfügbar in Version 3 (Beta) und Flash Version 2.5:

ungarisch
norwegisch
Vietnamesisch

Nur in Version 3 (Beta) verfügbar:

Afrikaans (afr)
Armenisch (hye)
Assamesisch (asm)
Aserbaidschanisch (aze)
Belarussisch (bel)
Bengalisch (ben)
Bosnisch (bos)
Katalanisch (Katze)
Cebuano (ceb)
Chichewa (New)
Estnisch (est)
Galizisch (glg)
Georgisch (kat)
Gujarati (guj)
Hausa (Hau)
Hebräisch (hebräisch)
Isländisch (isl)
Irisch (gle)
Javanisch (jav)
Kannada (kan)
Kasachisch (kaz)
Kirgisisch (kirisch)
Lettisch (Lava)

Lingala (Lin)
Litauisch (lit)
Luxemburgisch (ltz)
Mazedonisch (mkd)
Malayalam (männlich)
Mandarin-Chinesisch (cmn)
Marathi (März)
Nepali (Nep)
Paschtunisch (Eiter)
Persisch (fas)
Panjabi (Pfanne)
Serbisch (srp)
Sindhi (snd)
Slowenisch (slv)
Somalisch (som)
Suaheli (swa)
Telugu (tel)
Thailändisch (tha)
Urdu (Urd)
Walisisch (cym)

Erstellen Sie Soundeffekte mithilfe von Eingabeaufforderungen

Soundeffekte, die auf Ihr Thema und Ihren Inhalt abgestimmt sind, können wichtige Aktionen oder Feedback hervorheben, z. B. das Klicken auf eine Schaltfläche oder die Auswahl einer richtige Antwort, und sorgen so für ein ansprechenderes und effektiveres E-Learning-Erlebnis. Mit den Soundeffekten von AI Assistant können Sie jetzt mithilfe von Eingabeaufforderungen auf einfache Weise nahezu jeden erdenklichen Sound erzeugen. Verschwenden Sie keine Zeit mehr damit, im Internet nach vorgefertigten Sounds zu suchen, die möglicherweise zusätzliche Kosten verursachen!

Beginnen Sie mit der Erstellung hochwertiger Soundeffekte, indem Sie das AI Assistant Assistant-Menü in der Multifunktionsleiste unter der Registerkarte Start oder Einfügen aufrufen. Klicken Sie dann auf die untere Hälfte des Symbols „Audio einfügen“ und wählen Sie „Soundeffekte“. (Sie können auch über das Drop-down-Menü „Audio“ auf der Registerkarte „Einfügen“ darauf zugreifen. Auswählen Sie einfach Soundeffekte unter der Option AI Audio aus.) Beschreiben Sie im Textfeld den gewünschten Soundeffekt und wählen Sie eine Dauer aus. Sie können den Schieberegler „Prompt Influence“ anpassen, um dem AI Assistant mehr oder weniger kreative Freiheit bei der Erzeugung des Sounds zu geben.

Da AI Assistant natürliche Sprache versteht, können Soundeffekte mit allem erzeugt werden, von einer einfachen Aufforderung wie „einem einzigen Mausklick“ bis hin zu einer sehr komplexen Aufforderung, die mehrere Sounds oder eine Sequenz von Sounds in einer bestimmten Reihenfolge beschreibt. Beachten Sie nur, dass Sie maximal 450 Zeichen haben, um den Sound zu beschreiben, den Sie erzeugen möchten.

Klicken Sie auf die folgenden Links, um sich Soundeffekte anzuhören, die mit einer einfachen und einer komplexen Aufforderung erstellt wurden.

Aufforderung: Ein einziger Mausklick. Klicken Sie, um zuzuhören.
Aufforderung: Hunde bellen, dann schlägt ein Blitz ein. Klicken Sie hier, um zuzuhören.

Sie können auch die Dauer — wie lange der Soundeffekt abgespielt wird — auf maximal 22 Sekunden einstellen. Wenn Ihre Aufforderung beispielsweise „bellender Hund“ lautet und Sie die Dauer auf 10 Sekunden einstellen, wird kontinuierlich gebellt, aber eine Dauer von zwei Sekunden entspricht einem schnellen Bellen. Wenn Sie den Schieberegler „Prompt Influence“ nach rechts bewegen, hält sich der AI Assistant strikt an Ihre Aufforderung, während Sie ihn nach links schieben, um die Interpretation freier zu gestalten.

Profi-Tipp: Anhand des CC-Labels, das neben jeder Ausgabe erscheint, können Sie sofort feststellen, ob Ihr Soundeffekt Untertitel hat.

Einige Fachbegriffe, die Sie kennen sollten

Die Verwendung von Audioterminologie — Fachvokabular, das Audioexperten bei ihrer Arbeit verwenden — kann dazu beitragen, Ihre Ansagen zu verbessern und noch dynamischere Soundeffekte zu erzeugen. Hier sind ein paar Beispiele:

Braam: Ein tiefer, resonanter und oft verzerrter Basssound, der in Medien, insbesondere in Trailern, verwendet wird, um ein Gefühl von Spannung, Macht oder drohendem Untergang zu erzeugen.

Whoosh: Ein schnelles, rauschendes Geräusch, das häufig verwendet wird, um schnelle Bewegungen, Übergänge oder dramatische Momente hervorzuheben.

Aufprall: Ein scharfes, auffallendes Geräusch, das als Hinweis auf eine Kollision, einen Treffer oder einen plötzlichen heftigen Kontakt verwendet wird, oft um einen Moment der Aktion oder Betonung hervorzuheben.

Störung: Ein kurzes, erschütterndes und in der Regel digitales Geräusch, das eine Fehlfunktion oder Verzerrung nachahmt und häufig verwendet wird, um Fehler zu vermitteln.

Foley: Der Prozess, alltägliche Soundeffekte wie Bewegungen und Objektgeräusche synchron mit den Bildern eines Films, Videos oder anderer Medien nachzubilden und aufzunehmen.

Hier ist etwas Lustiges zum Ausprobieren! Generieren Sie einen 3-Sekunden-Soundeffekt mit der Aufforderung „Studioqualität, Sounddesign, Rauschen und Braam-Effekt“. Eine Verlängerung der Dauer kann zu besseren Soundeffekten führen, aber gegen Ende wird auch mehr tote Luft erzeugt.

Profi-Tipp: Onomatopoeias — Wörter wie „Summen“, „Boom“, „Klicken“ und „Knallen“, die natürliche Geräusche imitieren — sind ebenfalls wichtige Begriffe für Soundeffekte. Verwenden Sie sie in Ihren Eingabeaufforderungen, um realistischere Soundeffekte zu erzielen.

Video-Tutorials

Sie möchten mehr erfahren, bevor Sie beginnen? In unseren Video-Tutorials finden Sie weitere Anleitungen zur Verwendung von AI Assistant zur Generierung von Text-to-Speech- und Soundeffekten.

Articulate 360 Training bietet auch zusätzliche Video-Tutorials zur Verwendung anderer AI Assistant Assistant-Funktionen.

Sie müssen bei Ihrem Articulate 360-Konto angemeldet sein, um die Videos ansehen zu können. Sie haben noch kein Konto? Melden Sie sich jetzt für eine kostenlose Testversion an!

Support

Schulung

Veranstaltungen

Kontakt