Amazon Polly

Amazon Polly ist ein Text-zu-Sprache-Service (TTS-Service), der einen geschriebenen Text in eine Sprachausgabe umwandelt. Developer haben dadurch die Möglichkeit, Programme zu entwickeln, die sprachfähig sind. Amazon Polly funktioniert mit einer KI-gestützten Deep-Learning-Technologie und ist deshalb in der Lage, eine Tonalität zu erzeugen, die der menschlichen Stimme ähnelt.

Inhaltsverzeichnis

Wozu wird ein Text-To-Speech-Service verwendet?
Integration von Amazon Polly
Stimmen
Sprache anpassen
Genaue Sprachsteuerung
Wordpress-Plugin
Vorteile von Amazon Polly
Voraussetzungen für Amazon Polly
Fazit
FAQ

Wozu wird ein Text-To-Speech-Service verwendet?

Ein TTS-Service (Text-To-Speech) ist in vielen Bereichen hilfreich. Ein Programm kann mithilfe der Technologie zum Beispiel mit Nutzern kommunizieren, die einen Bildschirm nicht auslesen können oder wollen. Barrieren werden dadurch abgebaut und die Software wird mehr Menschen zugänglich gemacht. In den letzten Jahrzehnten hat sich die Technologie immer weiterentwickelt – sie wird unter anderem für Newsreader, Gaming, Navigationssysteme, im E-Learning oder in der Telefonie verwendet. Funktionserweiterungen wie Speech Marks, zusätzliche Samplingraten und Streaming-Optionen unterstützen neue Anwendungen wie synchronisierte Animationen oder Echtzeit-Feedback

Integration von Amazon Polly

Entwickler können Amazon Polly über einfache API-Schnittstellen in andere Anwendungen integrieren. Um den Eingabetexte in einer Anwendung zu kennzeichnen, werden Sprachmarkierungen verwendet. Um eine Sprachmarkierung anzufordern, steht Programmieren der Befehl „synthesize-speech“ zur Verfügung. Als Output-Format kann lediglich JSON verwendet werden. Über „voice-id“ wählen Entwickler die Stimme aus, mit der die Sprachausgabe generiert werden soll.

Stimmen

Amazon Polly stellt Entwicklern heute eine große Auswahl an Stimmen und Sprachen zur Verfügung. Neben der Wahl zwischen männlicher und weiblicher Stimmfarbe können in vielen Sprachen zusätzlich neuronale Stimmen (Neural Voices) oder sogar generative Stimmen (Generative Voices) genutzt werden, die natürlicher klingen und Emotionen besser transportieren. Das Angebot umfasst inzwischen über 30 Sprachen und Dialekte mit mehr als 70 Stimmen.

Dazu gehören u.a.:

Arabisch, weiblich
Chinesisch/Mandarin, weiblich
Dänisch, weiblich & männlich
Niederländisch, weiblich & männlich
Englisch (australisch), weiblich & männlich
Englisch (britisch), weiblich & männlich
Englisch (indisch), weiblich
Englisch (amerikanisch), weiblich & männlich
Englisch (walisisch), männlich
Französisch, weiblich
Deutsch, weiblich & männlich
Hindi, weiblich
Isländisch, weiblich & männlich
Italienisch, weiblich & männlich
Japanisch, weiblich & männlich
Koreanisch, weiblich
Norwegisch, weiblich
Polnisch, weiblich & männlich
Portugiesisch (brasilianisch), weiblich & männlich
Portugiesisch (europäisch), weiblich & männlich
Rumänisch, weiblich
Russisch, weiblich & männlich
Spanisch (europäisch), weiblich & männlich
Spanisch (mexikanisch), weiblich
Spanisch (USA), weiblich & männlich
Schwedisch, weiblich
Türkisch, weiblich
Walisisch, weiblich

Manche Sprachen, z.B. Englisch (US) oder Deutsch, bieten gleich mehrere unterschiedliche Stimmen, sodass Entwickler gezielt zwischen neutral, freundlich, dynamisch oder generativ-emotional wählen können.

KI-Voicebot

Der KI Voicebot gewährleistet eine fehlerfreie und schnelle Bearbeitung aller Telefonanfragen und ermöglicht es, Ihre Mitarbeiter von Routineaufgaben zu entlasten. So können sich Ihre Mitarbeiter auf komplexe und wertschöpfende Aufgaben konzentrieren.

Sprache anpassen

Über Aussprachelexika können Programmierer die Aussprache von verschiedenen Begriffen anpassen. Dies ist zum Beispiel sinnvoll, wenn schriftliche Wörter mit Zahlen ausgestaltet werden und der Begriff „Nachthimmel“ im Text zum Beispiel als „N8himmel“ geschrieben wird. Im Gegensatz zum Menschen erkennt ein TSS diesen Lautzusammenhang nicht automatisch. Damit die Sprachausgabe dennoch korrekt ist, kann Amazon Polly mit einem Aussprachelexikon verknüpft werden, das solche Zusammenhänge erkennt.

Genaue Sprachsteuerung

Entwickler können die Sprachausgabe mit Amazon Polly steuern. Dabei können sie zum Beispiel die Lautstärke, die Tonhöhe und die Aussprache ändern. Zudem kann die ausgegebene Sprache so abgeändert werden, dass sie wie ein Nachrichtensprecher klingt. Über Metadaten können bestimmte Stellen im Text markiert und mit Animationen synchronisiert werden. Die Sprachausgabe wird dabei zum Beispiel mit den Mundbewegungen einer Grafikfigur in Einklang gebracht. Eine weitere Option in der Sprachsteuerung stellt die automatische Anpassung des Sprechtempos durch das Festlegen einer maximalen Sprechdauer dar.

WordPress-Plugin

Neben Softwareentwicklungen eignet sich Amazon Polly auch gut, um die eigene WordPress-Website barrierefreie zu machen. Eine aufwendige Integration ist dazu nicht erforderlich – Nutzer können das System einrichten, indem sie das Plugin Amazon AI Plugin for WordPress herunterladen. Damit kann ein Audio-Feed für die Textinhalte auf der Website erstellt und in einem Player integriert werden.
Generell bietet das Plugin Seitenbetreibern viele kreative Nutzungsmöglichkeiten, z. B. für die Wiedergabe von Podcasts auf der eigenen Website.

Webinar: Künstliche Intelligenz – Grundlagen und Best Practices

Sie möchten gerne mehr zum Thema Künstliche Intelligenz erfahren und wie Ihr Unternehmen davon profitieren kann? In unserem Webinar fassen wir Ihnen die wichtigsten Aspekte zusammen!

Vorteile von Amazon Polly

Durch die Nutzung von Amazon Polly ergeben sich viele Vorteile:

Zugänglichkeit

Die Software kann von Menschen genutzt werden, die aufgrund einer Beeinträchtigung oder Alphabetisierungsproblemen nicht lesen können.

Erweitertes Lernen

Mithilfe einer visuellen und gleichzeitig akustischen Präsentation bleiben Lehrinhalte länger in Erinnerung. Hierdurch verbessert sich das Verständnis des Gelernten, wodurch Anwender motivierter lernen und ein höheres Selbstvertrauen entwickeln. Amazon Polly ist daher ein geeignetes System, um E-Learning zu erleichtern.

Wiedergabe von Sprachaufzeichnungen

Sprachaufzeichnungen können mit Amazon Polly umsonst abgespielt werden. Das System erkennt Standarddateiformate wie MP3 und ist in der Lage, diese aus der Cloud oder einem lokalen Datenträger wiederzugeben.

Steuerung der Sprachausgabe

Die Sprachausgaben können an individuelle Bedürfnisse angepasst werden. Mithilfe von Aussprachelexika werden Besonderheiten in Texten für die Sprachtransformation kenntlich gemacht.

Geringe Kosten

Der Preis, den Entwickler für die Nutzung von Amazon Polly bezahlen, ist von der übersetzten Textmenge abhängig. Die Kosten werden einmalig pro Zeichen abgerechnet – danach kann die Sprachaufzeichnung unbegrenzt wiedergegeben werden.

Voraussetzungen für Amazon Polly

Für die Nutzung von Amazon Polly müssen Entwickler ein AWS-Konto (Amazon-Web-Services-Konto) anlegen. Um eine Sprachausgabe zu erzeugen, navigieren sie zur Amazon-Polly-Konsole, geben dort einen Text ein und speichern diesen dann als Audiodatei.

Fazit

Amazon Polly ist ein TSS, mit dem Anwender einen geschriebenen Text in gesprochene Sprache transformieren können. Entwickler können mithilfe des Service eine sprachfähige Software programmieren, die mit Nutzern kommunizieren kann, ohne dass diese einen Bildschirm auslesen müssen.

Hieraus ergeben sich viele Anwendungsmöglichkeiten: Oft wird das System im Bereich E-Learning eingesetzt. Unternehmen verwenden Amazon Polly ebenfalls in verschiedenen Bereichen, z. B. in der Telefonie oder als Ansagesysteme für Mitarbeiter. Auch Texte auf Websites können mit dem TSS ausgelesen werden. Administratoren einer WordPress-Seite steht zu diesem Zweck ein eigenes Plugin zur Verfügung.

Um das Nutzererlebnis so angenehm wie möglich zu machen, verwendet Amazon Polly eine KI-gestützte Deep-Learning-Technologie, die dazu führt, dass die Sprachausgabe der menschlichen Stimme ähnelt. Entwickler können für die Sprachausgabe sowohl männliche als auch weibliche Stimmen in unterschiedlichen Sprachen verwenden.

Weitere Möglichkeiten bieten umfangreiche Optionen in der Sprachsteuerung. Zum einen können individuelle Besonderheiten von Texten mit Aussprachelexika in eine korrekte Aussprache übersetzt werden. Zum anderen haben Developer die Möglichkeit, die Tonhöhe oder Aussprache zu verändern. Zudem kann die gesprochene Sprache mithilfe von Metadaten optimal an die Mundbewegungen einer Grafikfigur angepasst werden.

Von Amazon Polly profitieren Entwickler, die ihre Software möglichst barrierefrei verfügbar machen wollen, da sie durch die Sprachsteuerung auch mit Menschen kommunizieren kann, die nicht lesen können oder wollen. Kontaktieren Sie uns gerne, wenn Sie weitere Fragen zum Thema Amazon Polly haben.

Dieser Artikel erschien bereits am 11.09.2019. Der Artikel wurde am 15.09.2025 erneut geprüft und mit leichten Anpassungen aktualisiert.

Websession: Amazon Polly

Text in eine Sprachausgabe umwandeln? Wir beantworten all Ihre Fragen zu diesem Thema in unserer kostenlosen Websession.

FAQ

Wozu wird ein Text-To-Speech-Service verwendet?
Ein Text-To-Speech-Service (TTS) wandelt geschriebenen Text in gesprochene Sprache um und macht Inhalte so auch ohne Bildschirm lesbar. Er wird z. B. in Navigationssystemen, E-Learning, Telefonie, Gaming oder Newsreadern eingesetzt – vor allem, um Barrieren abzubauen und Anwendungen für mehr Nutzer zugänglich zu machen.

Wie lässt sich die Sprachausgabe mit Amazon Polly steuern?
Amazon Polly erlaubt eine präzise Steuerung der Sprachausgabe: Entwickler können Lautstärke, Tonhöhe, Sprechtempo und Aussprache anpassen. Auch spezielle Stile wie etwa ein Nachrichtensprecher-Ton sind möglich. Über Metadaten lässt sich die Sprache mit Animationen oder Lippenbewegungen synchronisieren – etwa bei virtuellen Avataren oder Figuren.

Welche Vorteile bietet Amazon Polly?
Amazon Polly verbessert die Zugänglichkeit für Menschen mit Leseschwierigkeiten, unterstützt effektives E-Learning durch kombinierte Text- und Sprachausgabe und ermöglicht die kostenlose Wiedergabe von Sprachaufzeichnungen in Standardformaten. Die Sprachausgabe ist individuell anpassbar, z. B. durch Aussprachelexika. Dank nutzungsbasierter Abrechnung ist der Service außerdem kosteneffizient.

Wer kann mir beim Thema Amazon Polly helfen?

Wenn Sie Unterstützung zum Thema Amazon Polly benötigen, stehen Ihnen die Experten der mindsquare AG zur Verfügung. Unsere Berater helfen Ihnen, Ihre Fragen zu beantworten, das passende Tool für Ihr Unternehmen zu finden und es optimal einzusetzen. Vereinbaren Sie gern ein unverbindliches Beratungsgespräch, um Ihre spezifischen Anforderungen zu besprechen.

Xing LinkedIn Facebook E-Mail

Philipp Schurr

Ich helfe dabei, Integrationslösungen für Systemlandschaften nach dem aktuellen Stand der Technik einzuführen. Als Management & Technologieberater für Integration & Schnittstellen verbinde ich tiefgehende technische Expertise mit langjährigem Projektleitungs-Knowhow. Diese Kombination liefert mir die Grundlage, meine Kunden-Projekte zum Erfolg zu führen.

Sie haben Fragen? Kontaktieren Sie mich!

Amazon Polly

Inhaltsverzeichnis

Wozu wird ein Text-To-Speech-Service verwendet?

Integration von Amazon Polly