mindsquare.de durchsuchen

Amazon Polly

Sie brauchen einen Amazon Polly Berater und/oder möchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?

Max-Ludwig Stadler
25. September 2024

Amazon Polly ist ein Text-zu-Sprache-Service (TTS-Service), der einen geschriebenen Text in eine Sprachausgabe umwandelt. Developer haben dadurch die Möglichkeit, Programme zu entwickeln, die sprachfähig sind. Amazon Polly funktioniert mit einer KI-gestützten Deep-Learning-Technologie und ist deshalb in der Lage, eine Tonalität zu erzeugen, die der menschlichen Stimme ähnelt.

Wozu wird ein Text-To-Speech-Service verwendet?

Ein TTS-Service (Text-To-Speech) ist in vielen Bereichen hilfreich. Ein Programm kann mithilfe der Technologie zum Beispiel mit Nutzern kommunizieren, die einen Bildschirm nicht auslesen können oder wollen. Barrieren werden dadurch abgebaut und die Software wird mehr Menschen zugänglich gemacht. In den letzten Jahrzehnten hat sich die Technologie immer weiterentwickelt – sie wird unter anderem für Newsreader, Gaming, Navigationssysteme, im E-Learning oder in der Telefonie verwendet.

Integration von Amazon Polly

Entwickler können Amazon Polly über einfache API-Schnittstellen in andere Anwendungen integrieren. Um den Eingabetexte in einer Anwendung zu kennzeichnen, werden Sprachmarkierungen verwendet. Um eine Sprachmarkierung anzufordern, steht Programmieren der Befehl „synthesize-speech“ zur Verfügung. Als Output-Format kann lediglich JSON verwendet werden. Über „voice-id“ wählen Entwickler die Stimme aus, mit der die Sprachausgabe generiert werden soll.

Stimmen

Amazon Polly stellt Programmierern eine Vielzahl von Stimmen für ihre Entwicklung zur Verfügung. Neben den Sprachen können Verantwortliche auch entscheiden, ob sie eine männliche oder weibliche Stimmfarbe für ihre Software verwenden möchten. Folgende Sprachen und Stimmen stehen zur Auswahl:

  •  Arabisch, weiblich
  • Chinesisch/Mandarin, weiblich
  • Dänisch, weiblich & männlich
  • Niederländisch, weiblich & männlich
  • Englisch (australisch), weiblich & männlich
  • Englisch (britisch), weiblich & männlich
  • Englisch (indisch), weiblich
  • Englisch (amerikanisch), weiblich & männlich
  • Englisch (walisisch), männlich
  • Französisch, weiblich
  • Deutsch, weiblich & männlich
  • Hindi, weiblich
  • Isländisch, weiblich & männlich
  • Italienisch, weiblich & männlich
  • Japanisch, weiblich & männlich
  • Koreanisch, weiblich
  • Norwegisch, weiblich
  • Polnisch, weiblich & männlich
  • Portugiesisch (brasilianisch), weiblich & männlich
  • Portugiesisch (europäisch), weiblich & männlich
  • Rumänisch, weiblich
  • Russisch, weiblich & männlich
  • Spanisch (europäisch), weiblich & männlich
  • Spanisch (mexikanisch), weiblich
  • Spanisch (USA), weiblich & männlich
  • Schwedisch, weiblich
  • Türkisch, weiblich
  • Walisisch, weiblich

Manche Sprachen, z. B. Englisch (amerikanisch), verfügen über eine Auswahl von mehreren unterschiedlichen männlichen und weiblichen Stimmen.

E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Sprache anpassen

Über Aussprachelexika können Programmierer die Aussprache von verschiedenen Begriffen anpassen. Dies ist zum Beispiel sinnvoll, wenn schriftliche Wörter mit Zahlen ausgestaltet werden und der Begriff „Nachthimmel“ im Text zum Beispiel als „N8himmel“ geschrieben wird. Im Gegensatz zum Menschen erkennt ein TSS diesen Lautzusammenhang nicht automatisch. Damit die Sprachausgabe dennoch korrekt ist, kann Amazon Polly mit einem Aussprachelexikon verknüpft werden, das solche Zusammenhänge erkennt.

Genaue Sprachsteuerung

Entwickler können die Sprachausgabe mit Amazon Polly steuern. Dabei können sie zum Beispiel die Lautstärke, die Tonhöhe und die Aussprache ändern. Zudem kann die ausgegebene Sprache so abgeändert werden, dass sie wie ein Nachrichtensprecher klingt. Über Metadaten können bestimmte Stellen im Text markiert und mit Animationen synchronisiert werden. Die Sprachausgabe wird dabei zum Beispiel mit den Mundbewegungen einer Grafikfigur in Einklang gebracht. Eine weitere Option in der Sprachsteuerung stellt die automatische Anpassung des Sprechtempos durch das Festlegen einer maximalen Sprechdauer dar.

WordPress-Plugin

Neben Softwareentwicklungen eignet sich Amazon Polly auch gut, um die eigene WordPress-Website barrierefreie zu machen. Eine aufwendige Integration ist dazu nicht erforderlich – Nutzer können das System einrichten, indem sie das Plugin Amazon AI Plugin for WordPress herunterladen. Damit kann ein Audio-Feed für die Textinhalte auf der Website erstellt und in einem Player integriert werden.
Generell bietet das Plugin Seitenbetreibern viele kreative Nutzungsmöglichkeiten, z. B. für die Wiedergabe von Podcasts auf der eigenen Website.

KI - Grundlagen und BP
Sie möchten gerne mehr zum Thema Künstliche Intelligenz erfahren und wie Ihr Unternehmen davon profitieren kann? In unserem Webinar fassen wir Ihnen die wichtigsten Aspekte zusammen!

Vorteile von Amazon Polly

Durch die Nutzung von Amazon Polly ergeben sich viele Vorteile:

Zugänglichkeit

Die Software kann von Menschen genutzt werden, die aufgrund einer Beeinträchtigung oder Alphabetisierungsproblemen nicht lesen können.

Erweitertes Lernen

Mithilfe einer visuellen und gleichzeitig akustischen Präsentation bleiben Lehrinhalte länger in Erinnerung. Hierdurch verbessert sich das Verständnis des Gelernten, wodurch Anwender motivierter lernen und ein höheres Selbstvertrauen entwickeln. Amazon Polly ist daher ein geeignetes System, um E-Learning zu erleichtern.

Wiedergabe von Sprachaufzeichnungen

Sprachaufzeichnungen können mit Amazon Polly umsonst abgespielt werden. Das System erkennt Standarddateiformate wie MP3 und ist in der Lage, diese aus der Cloud oder einem lokalen Datenträger wiederzugeben.

Steuerung der Sprachausgabe

Die Sprachausgaben können an individuelle Bedürfnisse angepasst werden. Mithilfe von Aussprachelexika werden Besonderheiten in Texten für die Sprachtransformation kenntlich gemacht.

Geringe Kosten

Der Preis, den Entwickler für die Nutzung von Amazon Polly bezahlen, ist von der übersetzten Textmenge abhängig. Die Kosten werden einmalig pro Zeichen abgerechnet – danach kann die Sprachaufzeichnung unbegrenzt wiedergegeben werden.

Voraussetzungen für Amazon Polly

Für die Nutzung von Amazon Polly müssen Entwickler ein AWS-Konto (Amazon-Web-Services-Konto) anlegen. Um eine Sprachausgabe zu erzeugen, navigieren sie zur Amazon-Polly-Konsole, geben dort einen Text ein und speichern diesen dann als Audiodatei.

Max Luwig Stadler von mindsquare

Websession: Amazon Polly

Text in eine Sprachausgabe umwandeln? Wir beantworten all Ihre Fragen zu diesem Thema in unserer kostenlosen Websession.

Fazit

Amazon Polly ist ein TSS, mit dem Anwender einen geschriebenen Text in gesprochene Sprache transformieren können. Entwickler können mithilfe des Service eine sprachfähige Software programmieren, die mit Nutzern kommunizieren kann, ohne dass diese einen Bildschirm auslesen müssen.

Hieraus ergeben sich viele Anwendungsmöglichkeiten: Oft wird das System im Bereich E-Learning eingesetzt. Unternehmen verwenden Amazon Polly ebenfalls in verschiedenen Bereichen, z. B. in der Telefonie oder als Ansagesysteme für Mitarbeiter. Auch Texte auf Websites können mit dem TSS ausgelesen werden. Administratoren einer WordPress-Seite steht zu diesem Zweck ein eigenes Plugin zur Verfügung.

Um das Nutzererlebnis so angenehm wie möglich zu machen, verwendet Amazon Polly eine KI-gestützte Deep-Learning-Technologie, die dazu führt, dass die Sprachausgabe der menschlichen Stimme ähnelt. Entwickler können für die Sprachausgabe sowohl männliche als auch weibliche Stimmen in unterschiedlichen Sprachen verwenden.

Weitere Möglichkeiten bieten umfangreiche Optionen in der Sprachsteuerung. Zum einen können individuelle Besonderheiten von Texten mit Aussprachelexika in eine korrekte Aussprache übersetzt werden. Zum anderen haben Developer die Möglichkeit, die Tonhöhe oder Aussprache zu verändern. Zudem kann die gesprochene Sprache mithilfe von Metadaten optimal an die Mundbewegungen einer Grafikfigur angepasst werden.

Von Amazon Polly profitieren Entwickler, die ihre Software möglichst barrierefrei verfügbar machen wollen, da sie durch die Sprachsteuerung auch mit Menschen kommunizieren kann, die nicht lesen können oder wollen. Kontaktieren Sie uns gerne, wenn Sie weitere Fragen zum Thema Amazon Polly haben.

Verwandte Know-Hows

Meta-Learning, auch bekannt als „Lernen zu lernen“, hat sich als einer der vielversprechendsten Ansätze in der künstlichen Intelligenz (KI) und im maschinellen Lernen erwiesen. In einer Zeit, in der Datenknappheit […]
Künstliche Intelligenz hat in den letzten Jahren große Fortschritte gemacht und immer mehr Bereiche unseres Alltags erobert. Einer der faszinierendsten Durchbrüche in diesem Bereich sind KI-Modelle wie Midjourney und DALL-E, […]
Mit der "Google AI" getauften Abteilung hat der Suchmaschinengigant aus den Vereinigten Staaten den Schritt in den Sektor der Künstlichen Intelligenz gewagt.

Passende Angebote zum Thema

SAP Analytics Updates im Reporting-Umfeld sind verwirrend und sowohl Manager als auch Entwickler behalten kaum den Überblick. Lassen Sie sich nicht ins Boxhorn jagen! Bevor Sie Ihre wertvolle Zeit verschwenden, […]
SAP Identity Management unterstützt Sie bei der zentralen Verwaltung von Benutzern, Berechtigungen und Genehmigungs-Workflows im Unternehmen. Es ist das Nachfolgeprodukt der zentralen Benutzerverwaltung von SAP und kann zusätzlich zu den […]
Die virtuelle Fiori Launchpad Tastatur für das Anmelden am Fiori Launchpad ermöglicht ein einfaches und schnelles Anmelden an Touch-Terminals.

Beratung und Unterstützung für die Unternehmens-IT

  • Individualentwicklung für SAP und Salesforce
  • SAP S/4HANA-Strategieentwicklung, Einführung, Migration
  • Mobile App Komplettlösungen – von der Idee über die Entwicklung und Einführung bis zum Betrieb, für SAP Fiori und Salesforce Lightning
  • Automatisierung von Prozessen durch Schnittstellen, künstliche Intelligenz (KI) und Robotic Process Automation (RPA)
  • Beratung, Entwicklung, Einführung
  • Formular- und Outputmanagement, E-Rechnung & SAP DRC
  • SAP Archivierung und SAP ILM
  • SAP Basis & Security, Enterprise IT-Security & Datenschutz
  • SAP BI & Analytics
  • Low Code / No Code – Lösungen

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Personal / HR

  • Knowhow in Personalprozessen und IT-Technologien verbinden
  • HR-Berater, die IT-ler und Personaler in einer Person sind
  • Beratung zu HR IT Landschafts- & Roadmap sowie HR Software Auswahl
  • Beratung und Entwicklung im SAP HCM, SuccessFactors und der SAP Business Technology Platform
  • HCM for S/4HANA (H4S4) Migration & Support
  • Als Advisory Partner Plattform und Prozessberatung in Workday
  • Mobile Development mit SAP Fiori, SAPUI5, HTML5 und JavaScript
  • Marktführer im Bereich ESS/MSS

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Produktion & Logistik

  • Optimierung und Digitalisierung von Produktions- und Logistikprozessen sowie Einkaufs- und Vertriebsprozessen
  • Einführung mobiler Datenerfassung in Produktion, Lager und Instandhaltung
  • Umfassendes Knowhow in den SAP-Modulen LO, MM, SD, WM, PM und CCS/CCM
  • Modul-Beratung & Einführung, Entwicklung individueller (mobiler) Anwendungen
  • Beratung und Entwicklung in der SAP Freischaltungsabwicklung (SAP WCM, eWCM)
  • Optimierung sämtlicher Prozesse im Bereich der nachträglichen Vergütung (Bonus)

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Vertrieb & Service

  • Vertriebs- & Service-Prozesse auf Basis von Salesforce
  • Beratung, Einführung und Entwicklung für Salesforce-Lösungen: Sales Cloud, Service Cloud, Marketing Cloud inkl. Account Engagement (ehem. Pardot)
  • Salesforce Customizing: Individuelle Lösungen in Salesforce, u.a. für Chemie-Branche
  • Betriebsunterstützung und Service für Salesforce-Kunden
  • Schnittstellen-Entwicklung, besondere Expertise SAP – Salesforce Integration

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

msDevSupport

Service / Development Support

  • fester, eingearbeiteter Ansprechpartner als Koordinator
  • kontinuierliche Weiterentwicklung und Digitalisierung Ihres Unternehmens, z.B. Fehlerbehebung, Updates, neue Features implementieren
  • kleinere Entwicklungen realisieren, die kein Projektmanagement erfordern
  • günstige Abrechnungen pro h
  • sehr einfache und schnelle Beauftragung auf Zuruf
  • ständige Verfügbarkeit: (Teil-)Ressourcen geblockt für Sie
  • kurze Reaktionszeiten 2 – 24h
  • Wir halten Wissen vor und stellen Stellvertretung sicher

msSolution

Projekte

  • Projektleitung und Steering inklusive Qualitätssicherung
  • „Wir machen Ihr fachliches Problem zu unserem.“
  • mindsquare steuert IT-Experten selbst
  • Abrechnung pro Tag
  • Längerer Angebots- und Beauftragungsprozess
  • Lieferzeit 6 – 12 Wochen ab Auftragseingang
  • Zum Auftragsende Transition zu einem Service & Support notwendig, um schnell helfen zu können

msPeople

IT-Experten auf Zeit

  • Wir lösen Ihren personellen Engpass, z.B. liefern von IT-Experten für Ihr laufendes Projekt
  • Breites Experten-Netzwerk für praktisch jedes Thema und Budget:
  • interne festangestellte mindsquare Mitarbeiter:innen
  • externe Experten aus unserem Netzwerk von 27.000 Freiberufler:innen aus Deutschland
  • externe Experten im Nearshoring mit derzeit 37 Partnern
  • Verbindliches Buchen der Experten in einem definierten Zeitraum an festen Tagen
  • Ohne Projektleitung und Steering, Sie steuern die Experten
  • Lieferzeit in der Regel 2 – 6 Wochen
  • Nach Auftragsende KEIN Vorhalten von Experten und Knowhow
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice