mindsquare.de durchsuchen

Amazon Polly

Sie brauchen einen Amazon Polly Berater und/oder möchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?

Max-Ludwig Stadler
11. September 2019

Amazon Polly ist ein Text-zu-Sprache-Service (TTS-Service), der einen geschriebenen Text in eine Sprachausgabe umwandelt. Developer haben dadurch die Möglichkeit, Programme zu entwickeln, die sprachfähig sind. Amazon Polly funktioniert mit einer KI-gestützten Deep-Learning-Technologie und ist deshalb in der Lage, eine Tonalität zu erzeugen, die der menschlichen Stimme ähnelt.

Wozu wird ein Text-To-Speech-Service verwendet?

Ein TTS-Service (Text-To-Speech) ist in vielen Bereichen hilfreich. Ein Programm kann mithilfe der Technologie zum Beispiel mit Nutzern kommunizieren, die einen Bildschirm nicht auslesen können oder wollen. Barrieren werden dadurch abgebaut und die Software wird mehr Menschen zugänglich gemacht. In den letzten Jahrzehnten hat sich die Technologie immer weiterentwickelt – sie wird unter anderem für Newsreader, Gaming, Navigationssysteme, im E-Learning oder in der Telefonie verwendet.

Integration von Amazon Polly

Entwickler können Amazon Polly über einfache API-Schnittstellen in andere Anwendungen integrieren. Um den Eingabetexte in einer Anwendung zu kennzeichnen, werden Sprachmarkierungen verwendet. Um eine Sprachmarkierung anzufordern, steht Programmieren der Befehl „synthesize-speech“ zur Verfügung. Als Output-Format kann lediglich JSON verwendet werden. Über „voice-id“ wählen Entwickler die Stimme aus, mit der die Sprachausgabe generiert werden soll.

Stimmen

Amazon Polly stellt Programmierern eine Vielzahl von Stimmen für ihre Entwicklung zur Verfügung. Neben den Sprachen können Verantwortliche auch entscheiden, ob sie eine männliche oder weibliche Stimmfarbe für ihre Software verwenden möchten. Folgende Sprachen und Stimmen stehen zur Auswahl:

  •  Arabisch, weiblich
  • Chinesisch/Mandarin, weiblich
  • Dänisch, weiblich & männlich
  • Niederländisch, weiblich & männlich
  • Englisch (australisch), weiblich & männlich
  • Englisch (britisch), weiblich & männlich
  • Englisch (indisch), weiblich
  • Englisch (amerikanisch), weiblich & männlich
  • Englisch (walisisch), männlich
  • Französisch, weiblich
  • Deutsch, weiblich & männlich
  • Hindi, weiblich
  • Isländisch, weiblich & männlich
  • Italienisch, weiblich & männlich
  • Japanisch, weiblich & männlich
  • Koreanisch, weiblich
  • Norwegisch, weiblich
  • Polnisch, weiblich & männlich
  • Portugiesisch (brasilianisch), weiblich & männlich
  • Portugiesisch (europäisch), weiblich & männlich
  • Rumänisch, weiblich
  • Russisch, weiblich & männlich
  • Spanisch (europäisch), weiblich & männlich
  • Spanisch (mexikanisch), weiblich
  • Spanisch (USA), weiblich & männlich
  • Schwedisch, weiblich
  • Türkisch, weiblich
  • Walisisch, weiblich

Manche Sprachen, z. B. Englisch (amerikanisch), verfügen über eine Auswahl von mehreren unterschiedlichen männlichen und weiblichen Stimmen.

Unser E-Book zum Thema Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Sprache anpassen

Über Aussprachelexika können Programmierer die Aussprache von verschiedenen Begriffen anpassen. Dies ist zum Beispiel sinnvoll, wenn schriftliche Wörter mit Zahlen ausgestaltet werden und der Begriff „Nachthimmel“ im Text zum Beispiel als „N8himmel“ geschrieben wird. Im Gegensatz zum Menschen erkennt ein TSS diesen Lautzusammenhang nicht automatisch. Damit die Sprachausgabe dennoch korrekt ist, kann Amazon Polly mit einem Aussprachelexikon verknüpft werden, das solche Zusammenhänge erkennt.

Genaue Sprachsteuerung

Entwickler können die Sprachausgabe mit Amazon Polly steuern. Dabei können sie zum Beispiel die Lautstärke, die Tonhöhe und die Aussprache ändern. Zudem kann die ausgegebene Sprache so abgeändert werden, dass sie wie ein Nachrichtensprecher klingt. Über Metadaten können bestimmte Stellen im Text markiert und mit Animationen synchronisiert werden. Die Sprachausgabe wird dabei zum Beispiel mit den Mundbewegungen einer Grafikfigur in Einklang gebracht. Eine weitere Option in der Sprachsteuerung stellt die automatische Anpassung des Sprechtempos durch das Festlegen einer maximalen Sprechdauer dar.

WordPress-Plugin

Neben Softwareentwicklungen eignet sich Amazon Polly auch gut, um die eigene WordPress-Website barrierefreie zu machen. Eine aufwendige Integration ist dazu nicht erforderlich – Nutzer können das System einrichten, indem sie das Plugin Amazon AI Plugin for WordPress herunterladen. Damit kann ein Audio-Feed für die Textinhalte auf der Website erstellt und in einem Player integriert werden.
Generell bietet das Plugin Seitenbetreibern viele kreative Nutzungsmöglichkeiten, z. B. für die Wiedergabe von Podcasts auf der eigenen Website.

Vorteile von Amazon Polly

Durch die Nutzung von Amazon Polly ergeben sich viele Vorteile:

Zugänglichkeit

Die Software kann von Menschen genutzt werden, die aufgrund einer Beeinträchtigung oder Alphabetisierungsproblemen nicht lesen können.

Erweitertes Lernen

Mithilfe einer visuellen und gleichzeitig akustischen Präsentation bleiben Lehrinhalte länger in Erinnerung. Hierdurch verbessert sich das Verständnis des Gelernten, wodurch Anwender motivierter lernen und ein höheres Selbstvertrauen entwickeln. Amazon Polly ist daher ein geeignetes System, um E-Learning zu erleichtern.

Wiedergabe von Sprachaufzeichnungen

Sprachaufzeichnungen können mit Amazon Polly umsonst abgespielt werden. Das System erkennt Standarddateiformate wie MP3 und ist in der Lage, diese aus der Cloud oder einem lokalen Datenträger wiederzugeben.

Steuerung der Sprachausgabe

Die Sprachausgaben können an individuelle Bedürfnisse angepasst werden. Mithilfe von Aussprachelexika werden Besonderheiten in Texten für die Sprachtransformation kenntlich gemacht.

Geringe Kosten

Der Preis, den Entwickler für die Nutzung von Amazon Polly bezahlen, ist von der übersetzten Textmenge abhängig. Die Kosten werden einmalig pro Zeichen abgerechnet – danach kann die Sprachaufzeichnung unbegrenzt wiedergegeben werden.

Voraussetzungen für Amazon Polly

Für die Nutzung von Amazon Polly müssen Entwickler ein AWS-Konto (Amazon-Web-Services-Konto) anlegen. Um eine Sprachausgabe zu erzeugen, navigieren sie zur Amazon-Polly-Konsole, geben dort einen Text ein und speichern diesen dann als Audiodatei.

Max Luwig Stadler von mindsquare

Websession: Amazon Polly

Text in eine Sprachausgabe umwandeln? Wir beantworten all Ihre Fragen zu diesem Thema in unserer kostenlosen Websession.

Fazit

Amazon Polly ist ein TSS, mit dem Anwender einen geschriebenen Text in gesprochene Sprache transformieren können. Entwickler können mithilfe des Service eine sprachfähige Software programmieren, die mit Nutzern kommunizieren kann, ohne dass diese einen Bildschirm auslesen müssen.

Hieraus ergeben sich viele Anwendungsmöglichkeiten: Oft wird das System im Bereich E-Learning eingesetzt. Unternehmen verwenden Amazon Polly ebenfalls in verschiedenen Bereichen, z. B. in der Telefonie oder als Ansagesysteme für Mitarbeiter. Auch Texte auf Websites können mit dem TSS ausgelesen werden. Administratoren einer WordPress-Seite steht zu diesem Zweck ein eigenes Plugin zur Verfügung.

Um das Nutzererlebnis so angenehm wie möglich zu machen, verwendet Amazon Polly eine KI-gestützte Deep-Learning-Technologie, die dazu führt, dass die Sprachausgabe der menschlichen Stimme ähnelt. Entwickler können für die Sprachausgabe sowohl männliche als auch weibliche Stimmen in unterschiedlichen Sprachen verwenden.

Weitere Möglichkeiten bieten umfangreiche Optionen in der Sprachsteuerung. Zum einen können individuelle Besonderheiten von Texten mit Aussprachelexika in eine korrekte Aussprache übersetzt werden. Zum anderen haben Developer die Möglichkeit, die Tonhöhe oder Aussprache zu verändern. Zudem kann die gesprochene Sprache mithilfe von Metadaten optimal an die Mundbewegungen einer Grafikfigur angepasst werden.

Von Amazon Polly profitieren Entwickler, die ihre Software möglichst barrierefrei verfügbar machen wollen, da sie durch die Sprachsteuerung auch mit Menschen kommunizieren kann, die nicht lesen können oder wollen. Kontaktieren Sie uns gerne, wenn Sie weitere Fragen zum Thema Amazon Polly haben.

Verwandte Know-Hows

Das Internet der Dinge, auch IoT abgekürzt, beschreibt ein Netzwerk von physischen Objekten, Maschinen, Fahrzeugen, Haushaltsgeräten oder anderen Geräten, die über Sensoren und APIs virtuell miteinander kommunizieren und mit dem […]
Die Begrüßung über ein kleines Dialogfenster ist beim Besuch einer Website heutzutage keine Seltenheit mehr. Mittlerweile haben sich Chatbots als zuverlässige Lösungen für Kundenberatung und -service bewährt, da sie flexibel […]
Machine Learning bedeutet auf Deutsch „Maschinelles Lernen“ und ist ein Teilbereich der künstlichen Intelligenz (KI). Durch das Identifizieren von Mustern in vorliegenden Datenbeständen sind IT-Systeme mithilfe von Algorithmen in der […]

Passende Angebote zum Thema

SAP Analytics Updates im Reporting-Umfeld sind verwirrend und sowohl Manager als auch Entwickler behalten kaum den Überblick. Lassen Sie sich nicht ins Boxhorn jagen! Bevor Sie Ihre wertvolle Zeit verschwenden, […]
SAP Identity Management unterstützt Sie bei der zentralen Verwaltung von Benutzern, Berechtigungen und Genehmigungs-Workflows im Unternehmen. Es ist das Nachfolgeprodukt der zentralen Benutzerverwaltung von SAP und kann zusätzlich zu den […]
Die virtuelle Fiori Launchpad Tastatur für das Anmelden am Fiori Launchpad ermöglicht ein einfaches und schnelles Anmelden an Touch-Terminals.
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice