mindsquare.de durchsuchen

Text-To-Speech (TTS)

Sie brauchen einen Text-To-Speech Berater und/oder möchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?

Max-Ludwig Stadler
25. September 2024

Im telefonischen Kundenportal, beim Gespräch mit dem Smartphone-Assistenten oder während einer Bahnhofsdurchsage – Text-To-Speech ist heutzutage vielerorts im Einsatz. Es wird überall da genutzt, wo textbasierte Informationen über eine künstlich erzeugte Sprachausgabe wiedergegeben werden. So wird die Bedienung von und Kommunikation mit verschiedensten Systemen erleichtert.

Was ist Text-To-Speech (TTS)?

Als Text-To-Speech bezeichnet man die Erzeugung von gesprochener Sprache mit technischen Mitteln basierend auf Texteingaben. Grundsätzlich wird bei der künstlichen Spracherzeugung zwischen Methoden der Sprachwiedergabe und Sprachsynthese unterschieden.

Die Sprachwiedergabe greift auf zuvor eingesprochene Aufnahmen zurück, die dann mithilfe von Signalmodellierung an den Kontext angepasst werden. Dagegen wird die artikulatorische Sprachsynthese genutzt, um Texteingaben per Computergenerierung und ohne Nutzung von Audiosamples in akustische Sprachausgaben umzuwandeln. In professionellen TTS-Systemen wird heutzutage vorwiegend Methoden der Signalmodellierung angewendet und durch den Einsatz von künstlicher Intelligenz ergänzt, wodurch mittlerweile sehr natürlich klingende Sprachausgaben erzeugt werden können.

Funktionsweisen von TTS-Systemen

Ein Text-To-Speech-System besteht hauptsächlich aus zwei Komponenten: der NLP-Komponente (Natural Language Processing), welche den ausgewählten Text analysiert und phonetisch interpretiert, und der DSP-Komponente (Digital Signal Processing), welche das akustische Sprachsignal erzeugt.

NLP-Komponente

Mithilfe der NLP-Komponente (Natural Language Processing) wird der Text in seine phonetische Repräsentation umgewandelt. Dafür wird die gesamte Zeichenkette in einzelne Tokens oder Laute aufgeteilt und gemäß einem zugrundeliegenden Regelwerk oder Lexikon prozessiert. Dadurch werden Aussprache, Betonung und Satzmelodie (genannt Prosodie) korrekt ermittelt, sodass anschließend eine flüssige und natürlich klingende Lautfolge erzeugt werden kann.

DSP-Komponente

Die DSP-Komponente (Digital Signal Processing) ist für die eigentliche Generierung der Lautfolge zuständig. Dafür kommen zwei unterschiedliche Ansätze in Frage: die artikulatorische Synthese, welche die menschliche Lauterzeugung maschinell zu imitieren versucht, und die Signalmodellierung, welche zuvor aufgezeichnete Signale modifiziert und kombiniert. Die praktischen Methoden beider Ansätze haben gemein, dass sie auf Datenbanken zurückgreifen, in denen charakteristische Informationen über Sprachsegmente hinterlegt sind. Diese werden dann für die Erzeugung der gewünschten Äußerungen miteinander verknüpft. Je größer die Datenbank, desto mehr Laute werden erfasst. Dadurch ist weniger Nachbearbeitung nötig und das Resultat klingt authentischer.

DSP: Artikulatorische Synthese

Dieser Ansatz zielt darauf ab, den organischen Artikulationstrakt des Menschen – also Lungen, Lippen, Zunge, etc. – mechanisch nachzubilden, um so sämtliche menschliche Lautäußerungen erzeugen zu können. Dadurch ließe sich ein quasi unbegrenzter und natürlich klingender Wortschatz erreichen. Die Umsetzung eines solchen Modells ist jedoch mit enormem Aufwand verbunden. Aus diesem Grund ist der Ansatz der artikulatorischen Synthese für kommerzielle TTS-Anwendungen ungeeignet und wird eher für experimentelle Zwecke genutzt.

DSP: Signalmodellierung

Im Gegensatz zur artikulatorischen Synthese konzentriert sich der Ansatz der Signalmodellierung nicht auf die Lauterzeugung selbst, sondern auf die Veränderung bereits bestehender sprachlicher Signale. Hierbei werden im Voraus aufgenommene Sprachsamples aufbereitet, indem die Aufnahmen aneinandergereiht und Tonlage, Intonation und Satzmelodie angepasst werden. Dadurch lassen sie sich in verschiedenen Kontexten nutzen, ohne dabei allzu befremdlich zu klingen.

Umsetzung

Die eigenständige Entwicklung und Umsetzung eines TTS-Systems kann je nach angestrebtem Funktionsumfang ein äußerst umständliches Vorhaben sein. Simple Telefonbandansagen sind z.B. noch relativ unkompliziert realisierbar. Intelligente und flexible Systeme erfordern allerdings die Programmierung komplexer Anwendungen und den Einsatz von künstlicher Intelligenz und Machine Learning. Mit Technologien wie Deep Learning basierend auf Neuronalen Netzen kann das System den eigenen Wissensbestand selbstständig erweitern und Kundenanfragen dynamisch und zuverlässig bearbeiten.

Glücklicherweise gibt es eine heutzutage Reihe von Webservice-Angeboten wie z.B. Amazon Polly, die vorgefertigte Lösungen bereitstellen, um den Aufwand für die Einrichtung im eigenen Unternehmen zu minimieren.

TTS-Komponente

NLP- & DSP-Komponente eines TTS-Systems

Herausforderungen

Seit ihrer Konzeption sehen sich TTS-Systeme mit der schwierigen Aufgabe konfrontiert, natürliche Sprache zu verarbeiten und darüber hinaus noch lautsprachlich korrekt auszugeben. Aufgrund der Komplexität und Vielfältigkeit menschlicher Sprache ergeben sich daraus diverse Hindernisse. Bis vor Kurzem konnten TTS-Systeme diese Hürden kaum bewältigen, weshalb computergenerierte Lautfolgen meist robotisch und unnatürlich wirkten. Heutige realistisch klingende Systeme zeichnen sich dadurch aus, dass sie diese Herausforderungen mithilfe moderner Technologien überwinden können:

Textnormalisierung

  • Korrekte Wiedergabe von Homographen (identisch geschriebene Wörter mit unterschiedlichen Bedeutungen)
  • Differenzierung von Zahlenwerten (1903 – Neunzehnhundertdrei, Eintausendneunhundertdrei oder eins neun null drei)
  • Erkennen und Angleichen von Abkürzungen (tgl. – täglich, tägliche, täglicher, täglichen)

Heuristische Verfahren

  • Nutzen geeigneter Methoden zur Ermittlung korrekter Wortbedeutungen (bspw. mittels Untersuchung benachbarter Wörter)

Text-zu-Phonem

Zwei Ansätze zur Ermittlung der Aussprache eines Wortes auf Grundlage der Schreibweise (meist in Kombination eingesetzt):

  • wörterbuchbasiert: Abfrage der auszusprechenden Wörter aus einem Wörterbuch
    • schnell und genau, versagt bei unbekannten Wörtern, hoher Speicherplatzbedarf (sinnvoll z.B. im Deutschen & Englischen)
  • regelbasiert: Anwendung von Ausspracheregeln ausgehend von Schreibweise
    • funktioniert bei unbekannten Wörtern, erhebliche Komplexität des Regelsatzes bei unregelmäßiger Schreibweise/Aussprache (sinnvoll z.B. im Spanischen & Französischen)

High-Fidelity-Sprache

  • Angleichung beim Aneinanderketten von Lautsegmenten durch Korrekturen in Lautstärke, Grundfrequenz und Betonung
  • Identifizierung stimmlicher Merkmale bei emotionalen Inhalten für Verbesserung der Natürlichkeit künstlich synthetisierter Sprache
E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

E-Book: Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Use Cases

Ursprünglich wurde computergenerierte Sprachsynthese genutzt, um die Kommunikation von Menschen mit Seh- und Sprachbehinderungen mit ihrer Umwelt zu vereinfachen – ein nach wie vor zentrales Einsatzgebiet von TTS-Systemen. Heutzutage wird künstliche Sprachsynthese sogar eingesetzt, um Sprachwissenschaftler bei der Analyse von Sprachstörungen zu unterstützen.

Durch die kontinuierliche Weiterentwicklung hat sich die Qualität von TTS-Systemen in den letzten Jahren jedoch derart verbessert, dass Sprachsynthese für immer mehr Anwendungsfälle an Nutzen gewinnt. Besonders in Situationen, in denen kein geeignetes Display zur Verfügung steht oder bei denen die Augen mit anderen Aufgaben beschäftigt sind, wird Text-To-Speech für die Bedienung von Anwendungen genutzt. Dies spiegelt sich in der steigenden Nachfrage und dem stetig wachsenden Markt für TTS- und Spracherkennungslösungen wider.

TTS-Markt

Marktvolumen von TTS & Spracherkennung

TTS-Systeme lassen sich besonders in Kombination mit Spracherkennung und Speech-To-Text-Software für eine Vielzahl von Anwendungen in verschiedensten Branchen einsetzen. Nachfolgend eine ausschnitthafte Übersicht beliebter Use Cases:

  • Barrierefreiheit: Um Websites, Anwendungen und Dienstleistungen für Menschen mit Seh- oder Leseschwächen leichter zugängig zu machen, können ihre Textinhalte durch eine digitalen Sprachausgabe ergänzt und somit nutzerfreundlicher gemacht werden.
  • Gesundheitswesen: Geräte zum Monitoring des Gesundheitszustands können Sprachsynthese nutzen, z.B. um Benachrichtigungen über auffällige Herzfrequenzen oder Blutzuckerwerte zu verbalisieren.
  • IT & Telekommunikation: TTS ermöglicht schnellen, mehrsprachlichen und personalisierten Service bzw. First-Level-Support und hilft dabei, dass die Auslastung auch in Stoßzeiten die verfügbaren Kapazitäten nicht übersteigt.
  • Automobilindustrie: In Fahrzeuge integrierte elektronische Interfaces und Navigationssysteme profitieren davon, ihre Bedienbarkeit ohne visuelle Ablenkung zu erlauben.
  • Buchungen: Die Kopplung von TTS mit Spracherkennung bietet sich in Auskunftsystemen bspw. bei Hotelreservierungen an, um automatisch Angebote vorzustellen und Buchungsvorgänge abzuwickeln.
  • Handel: Automatisierte Systeme erleichtern das Abwickeln von Bestellprozessen und die Nachverfolgung von Lieferungen.
  • Finanzdienstleistungen: Banken können ihren Kunden leicht bedienbare multifunktionale Servicepunkte mit Echtzeit-Informationen bereitstellen, bspw. um Mobile Banking oder Aktienhandel bequemer zu gestalten.
  • Dialogsysteme: Dynamisch generierte Sprache kann in IVR-Dialogsystemen (Interactive Voice Response) genutzt werden, um einfache Kundenanfragen flexibel zu bearbeiten, ohne dass die Aufmerksamkeit eines Mitarbeiters erforderlich ist.
  • Marketing: Der Einsatz einer professionellen und individuellen Stimme erhöht den Erkennungswert Ihrer Marke und steigert das Nutzerengagement auf ihren Marketing-Kanälen.
  • Internet of Things: IoT-Geräte können mit einer Stimme ausgestattet werden, um Nutzern so eine einfache, natürliche Art der Kommunikation und Bedienung zu bieten.
  • Bildung: TTS wird zunehmend für die Vertonung von eLearning-Anwendungen eingesetzt. Hier können Autoren selbstständig softwaregenerierte Vorträge ihrer Lernunterlagen erstellen, sodass die Vertonung den Lernenden unverzüglich bereitgestellt werden kann.
  • Unterhaltung: TTS wird genutzt, um Dialoge und Narrationen in Videospielen oder Animationsprojekten zu erzeugen. Weiterhin können Online-Texte wie Blogbeiträge oder eBooks vertont werden, um sie als Podcasts oder Audioblogs abspielbar zu machen.
  • Personal Assistants: Chatbots und persönliche Sprachassistenten wie Alexa und Siri nutzen das Zusammenspiel von NLP, Spracherkennung und Text-To-Speech, um eine intuitive Verbindung zu Nutzern herzustellen und diverse Alltagsaufgaben zu übernehmen.

In diesen Branchen werden TTS & Spracherkennung am meisten genutzt.

Vorteile

Die Ergänzung von Produkten, Geräten oder Dienstleistungen mit Text-To-Speech bringt diverse Vorteile mit sich, insbesondere da die Einrichtung eines vorgefertigten TTS-Systems sehr simpel ist. Ein Überblick der wichtigsten Vorteile:

  • Reichweitenerhöhung: Inhalte werden einem größeren Publikum zugänglich gemacht und lassen sich leicht in mehrere Sprachen übersetzen.
  • Kostenreduzierung: Automatisierung von Anrufabwicklungen spart Ressourcen langfristig.
  • Verbesserung von Kundeninteraktion: Intelligente Anfragenbearbeitung liefert höchste Benutzerfreundlichkeit über mehrere Kunden-Touchpoints.
  • Ansprechender Service: Stimme und Sprache können personalisiert und an ausgewählte Zielgruppen angepasst werden.
  • Markenwahrnehmung: Abheben von der Konkurrenz durch eine einzigartige Stimme mit Wiedererkennungswert.
KI - Grundlagen und BP
Sie möchten gerne mehr zum Thema Künstliche Intelligenz erfahren und wie Ihr Unternehmen davon profitieren kann? In unserem Webinar fassen wir Ihnen die wichtigsten Aspekte zusammen!

Eine Stimme für Ihre Marke

Wenn Sie und Ihr Unternehmen von den Vorteilen eines Text-To-Speech-Systems profitieren möchten, stehen wir Ihnen gerne für eine unverbindliche und kostenlose Erstberatung zur Verfügung. Unsere Consultants unterstützen Sie beim Prozess der Auswahl und Implementierung, sodass Ihr Unternehmen ein TTS-System erhält, das auf Ihre Wünsche und Anforderungen zugeschnitten ist.

FAQ

Was versteht man unter Text-To-Speech?

Text-To-Speech bezeichnet den Prozess, textbasierte Informationen per künstlicher Spracherzeugung hörbar wiederzugeben. TTS wird oftmals in Kombination mit Spracherkennung eingesetzt, um die Interaktion mit Kommunikationssystemen zu erleichtern.

Wie funktioniert Text-To-Speech?

Kommerzielle Systeme arbeiten meist mit einer Vielzahl einzelner Sprachaufnahmen, die dem Kontext entsprechend aneinandergekettet und modelliert werden, um so eine natürlich klingende Sprachausgabe zu erzeugen.

Wie integriere ich Text-To-Speech in mein Produkt/meine Dienstleistung?

Es gibt eine Vielzahl von Entwicklungsmethoden, die sich für unterschiedliche Einsatzmöglichkeiten eignen. Diverse Webservice-Anbieter stellen vorgefertigte und leicht integrierbare TTS-Systeme zur Verfügung. Unsere Berater helfen Ihnen, einen Überblick zu erhalten.

Wo wird Text-To-Speech eingesetzt?

Da TTS-Systeme grundsätzlich zur Verbesserung der Bedienbarkeit dienen, können sie in verschiedensten Branchen sinnvoll genutzt werden. Beliebt ist der Einsatz von TTS in Dialogsystemen wie Support- und Kundenservice-Portalen, bei der Nutzung von smarten Geräten oder allgemein zur Bereitstellung barrierefreier Inhalte.

Verwandte Know-Hows

Künstliche Intelligenz (KI) ist aus der Geschäftswelt nicht mehr wegzudenken. Einen wichtigen Bestandteil bilden die Large Language Models (LLM). Was LLM sind und was bei der Nutzung zu beachten ist, […]
Das Machine Learning Studio ist die Entwicklungsumgebung von Azure für alle Anwendungen im Bereich maschinelles Lernen. Microsoft Azure ist dabei einer der weltweit wichtigsten Cloud Computing-Anbieter, der auf dem Markt […]
In einer Welt, in der visuelle Inhalte immer wichtiger werden, eröffnet die Bildgenerierungs-KI “Midjourney” faszinierende Möglichkeiten für Kreative und Unternehmen gleichermaßen. Doch was genau steckt eigentlich hinter Midjourney und weshalb […]

Passende Angebote zum Thema

Die gezielte Suche nach Mitarbeitern, die zu ihrem Unternehmen passen, wird für Recruiter von Jahr zu Jahr schwieriger. Mit der in SuccessFactors Recruiting integrierbaren Sprachanalyse-App analysieren Sie gezielt die Kompetenzen […]
Sie suchen nach einer Möglichkeit FAQs effizient und innovativ zu beantworten? Sie wollen Ihren Kunden oder Mitarbeitern eine neue Dimension von Userexperience bieten?
Behalten Sie auch in Krisenzeiten das Vertrauen Ihrer Kunden, indem Sie mit unserem Chatbot das erhöhte Serviceaufkommen effektiv meistern.

Beratung und Unterstützung für die Unternehmens-IT

  • Individualentwicklung für SAP und Salesforce
  • SAP S/4HANA-Strategieentwicklung, Einführung, Migration
  • Mobile App Komplettlösungen – von der Idee über die Entwicklung und Einführung bis zum Betrieb, für SAP Fiori und Salesforce Lightning
  • Automatisierung von Prozessen durch Schnittstellen, künstliche Intelligenz (KI) und Robotic Process Automation (RPA)
  • Beratung, Entwicklung, Einführung
  • Formular- und Outputmanagement, E-Rechnung & SAP DRC
  • SAP Archivierung und SAP ILM
  • SAP Basis & Security, Enterprise IT-Security & Datenschutz
  • SAP BI & Analytics
  • Low Code / No Code – Lösungen

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Personal / HR

  • Knowhow in Personalprozessen und IT-Technologien verbinden
  • HR-Berater, die IT-ler und Personaler in einer Person sind
  • Beratung zu HR IT Landschafts- & Roadmap sowie HR Software Auswahl
  • Beratung und Entwicklung im SAP HCM, SuccessFactors und der SAP Business Technology Platform
  • HCM for S/4HANA (H4S4) Migration & Support
  • Als Advisory Partner Plattform und Prozessberatung in Workday
  • Mobile Development mit SAP Fiori, SAPUI5, HTML5 und JavaScript
  • Marktführer im Bereich ESS/MSS

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Produktion & Logistik

  • Optimierung und Digitalisierung von Produktions- und Logistikprozessen sowie Einkaufs- und Vertriebsprozessen
  • Einführung mobiler Datenerfassung in Produktion, Lager und Instandhaltung
  • Umfassendes Knowhow in den SAP-Modulen LO, MM, SD, WM, PM und CCS/CCM
  • Modul-Beratung & Einführung, Entwicklung individueller (mobiler) Anwendungen
  • Beratung und Entwicklung in der SAP Freischaltungsabwicklung (SAP WCM, eWCM)
  • Optimierung sämtlicher Prozesse im Bereich der nachträglichen Vergütung (Bonus)

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

Besondere Prozessexzellenz im Bereich Vertrieb & Service

  • Vertriebs- & Service-Prozesse auf Basis von Salesforce
  • Beratung, Einführung und Entwicklung für Salesforce-Lösungen: Sales Cloud, Service Cloud, Marketing Cloud inkl. Account Engagement (ehem. Pardot)
  • Salesforce Customizing: Individuelle Lösungen in Salesforce, u.a. für Chemie-Branche
  • Betriebsunterstützung und Service für Salesforce-Kunden
  • Schnittstellen-Entwicklung, besondere Expertise SAP – Salesforce Integration

Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:

msDevSupport

Service / Development Support

  • fester, eingearbeiteter Ansprechpartner als Koordinator
  • kontinuierliche Weiterentwicklung und Digitalisierung Ihres Unternehmens, z.B. Fehlerbehebung, Updates, neue Features implementieren
  • kleinere Entwicklungen realisieren, die kein Projektmanagement erfordern
  • günstige Abrechnungen pro h
  • sehr einfache und schnelle Beauftragung auf Zuruf
  • ständige Verfügbarkeit: (Teil-)Ressourcen geblockt für Sie
  • kurze Reaktionszeiten 2 – 24h
  • Wir halten Wissen vor und stellen Stellvertretung sicher

msSolution

Projekte

  • Projektleitung und Steering inklusive Qualitätssicherung
  • „Wir machen Ihr fachliches Problem zu unserem.“
  • mindsquare steuert IT-Experten selbst
  • Abrechnung pro Tag
  • Längerer Angebots- und Beauftragungsprozess
  • Lieferzeit 6 – 12 Wochen ab Auftragseingang
  • Zum Auftragsende Transition zu einem Service & Support notwendig, um schnell helfen zu können

msPeople

IT-Experten auf Zeit

  • Wir lösen Ihren personellen Engpass, z.B. liefern von IT-Experten für Ihr laufendes Projekt
  • Breites Experten-Netzwerk für praktisch jedes Thema und Budget:
  • interne festangestellte mindsquare Mitarbeiter:innen
  • externe Experten aus unserem Netzwerk von 27.000 Freiberufler:innen aus Deutschland
  • externe Experten im Nearshoring mit derzeit 37 Partnern
  • Verbindliches Buchen der Experten in einem definierten Zeitraum an festen Tagen
  • Ohne Projektleitung und Steering, Sie steuern die Experten
  • Lieferzeit in der Regel 2 – 6 Wochen
  • Nach Auftragsende KEIN Vorhalten von Experten und Knowhow
Kontakt aufnehmen
Ansprechpartner
Laura Feldkamp mindsquare Kundenservice
Laura Feldkamp Kundenservice