Sie brauchen einen Text-To-Speech Berater und/oder möchten, dass wir Ihnen unser Angebot in diesem Umfeld vorstellen?
Bitte hinterlassen Sie uns Ihren Namen und die Kontaktdaten. Dann melden wir uns bei Ihnen.
Im telefonischen Kundenportal, beim Gespräch mit dem Smartphone-Assistenten oder während einer Bahnhofsdurchsage – Text-To-Speech ist heutzutage vielerorts im Einsatz. Es wird überall da genutzt, wo textbasierte Informationen über eine künstlich erzeugte Sprachausgabe wiedergegeben werden. So wird die Bedienung von und Kommunikation mit verschiedensten Systemen erleichtert.
Als Text-To-Speech bezeichnet man die Erzeugung von gesprochener Sprache mit technischen Mitteln basierend auf Texteingaben. Grundsätzlich wird bei der künstlichen Spracherzeugung zwischen Methoden der Sprachwiedergabe und Sprachsynthese unterschieden.
Die Sprachwiedergabe greift auf zuvor eingesprochene Aufnahmen zurück, die dann mithilfe von Signalmodellierung an den Kontext angepasst werden. Dagegen wird die artikulatorische Sprachsynthese genutzt, um Texteingaben per Computergenerierung und ohne Nutzung von Audiosamples in akustische Sprachausgaben umzuwandeln. In professionellen TTS-Systemen wird heutzutage vorwiegend Methoden der Signalmodellierung angewendet und durch den Einsatz von künstlicher Intelligenz ergänzt, wodurch mittlerweile sehr natürlich klingende Sprachausgaben erzeugt werden können.
Ein Text-To-Speech-System besteht hauptsächlich aus zwei Komponenten: der NLP-Komponente (Natural Language Processing), welche den ausgewählten Text analysiert und phonetisch interpretiert, und der DSP-Komponente (Digital Signal Processing), welche das akustische Sprachsignal erzeugt.
Mithilfe der NLP-Komponente (Natural Language Processing) wird der Text in seine phonetische Repräsentation umgewandelt. Dafür wird die gesamte Zeichenkette in einzelne Tokens oder Laute aufgeteilt und gemäß einem zugrundeliegenden Regelwerk oder Lexikon prozessiert. Dadurch werden Aussprache, Betonung und Satzmelodie (genannt Prosodie) korrekt ermittelt, sodass anschließend eine flüssige und natürlich klingende Lautfolge erzeugt werden kann.
Die DSP-Komponente (Digital Signal Processing) ist für die eigentliche Generierung der Lautfolge zuständig. Dafür kommen zwei unterschiedliche Ansätze in Frage: die artikulatorische Synthese, welche die menschliche Lauterzeugung maschinell zu imitieren versucht, und die Signalmodellierung, welche zuvor aufgezeichnete Signale modifiziert und kombiniert. Die praktischen Methoden beider Ansätze haben gemein, dass sie auf Datenbanken zurückgreifen, in denen charakteristische Informationen über Sprachsegmente hinterlegt sind. Diese werden dann für die Erzeugung der gewünschten Äußerungen miteinander verknüpft. Je größer die Datenbank, desto mehr Laute werden erfasst. Dadurch ist weniger Nachbearbeitung nötig und das Resultat klingt authentischer.
Dieser Ansatz zielt darauf ab, den organischen Artikulationstrakt des Menschen – also Lungen, Lippen, Zunge, etc. – mechanisch nachzubilden, um so sämtliche menschliche Lautäußerungen erzeugen zu können. Dadurch ließe sich ein quasi unbegrenzter und natürlich klingender Wortschatz erreichen. Die Umsetzung eines solchen Modells ist jedoch mit enormem Aufwand verbunden. Aus diesem Grund ist der Ansatz der artikulatorischen Synthese für kommerzielle TTS-Anwendungen ungeeignet und wird eher für experimentelle Zwecke genutzt.
Im Gegensatz zur artikulatorischen Synthese konzentriert sich der Ansatz der Signalmodellierung nicht auf die Lauterzeugung selbst, sondern auf die Veränderung bereits bestehender sprachlicher Signale. Hierbei werden im Voraus aufgenommene Sprachsamples aufbereitet, indem die Aufnahmen aneinandergereiht und Tonlage, Intonation und Satzmelodie angepasst werden. Dadurch lassen sie sich in verschiedenen Kontexten nutzen, ohne dabei allzu befremdlich zu klingen.
Die eigenständige Entwicklung und Umsetzung eines TTS-Systems kann je nach angestrebtem Funktionsumfang ein äußerst umständliches Vorhaben sein. Simple Telefonbandansagen sind z.B. noch relativ unkompliziert realisierbar. Intelligente und flexible Systeme erfordern allerdings die Programmierung komplexer Anwendungen und den Einsatz von künstlicher Intelligenz und Machine Learning. Mit Technologien wie Deep Learning basierend auf Neuronalen Netzen kann das System den eigenen Wissensbestand selbstständig erweitern und Kundenanfragen dynamisch und zuverlässig bearbeiten.
Glücklicherweise gibt es eine heutzutage Reihe von Webservice-Angeboten wie z.B. Amazon Polly, die vorgefertigte Lösungen bereitstellen, um den Aufwand für die Einrichtung im eigenen Unternehmen zu minimieren.
Seit ihrer Konzeption sehen sich TTS-Systeme mit der schwierigen Aufgabe konfrontiert, natürliche Sprache zu verarbeiten und darüber hinaus noch lautsprachlich korrekt auszugeben. Aufgrund der Komplexität und Vielfältigkeit menschlicher Sprache ergeben sich daraus diverse Hindernisse. Bis vor Kurzem konnten TTS-Systeme diese Hürden kaum bewältigen, weshalb computergenerierte Lautfolgen meist robotisch und unnatürlich wirkten. Heutige realistisch klingende Systeme zeichnen sich dadurch aus, dass sie diese Herausforderungen mithilfe moderner Technologien überwinden können:
Textnormalisierung
Heuristische Verfahren
Text-zu-Phonem
Zwei Ansätze zur Ermittlung der Aussprache eines Wortes auf Grundlage der Schreibweise (meist in Kombination eingesetzt):
High-Fidelity-Sprache
In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!
Ursprünglich wurde computergenerierte Sprachsynthese genutzt, um die Kommunikation von Menschen mit Seh- und Sprachbehinderungen mit ihrer Umwelt zu vereinfachen – ein nach wie vor zentrales Einsatzgebiet von TTS-Systemen. Heutzutage wird künstliche Sprachsynthese sogar eingesetzt, um Sprachwissenschaftler bei der Analyse von Sprachstörungen zu unterstützen.
Durch die kontinuierliche Weiterentwicklung hat sich die Qualität von TTS-Systemen in den letzten Jahren jedoch derart verbessert, dass Sprachsynthese für immer mehr Anwendungsfälle an Nutzen gewinnt. Besonders in Situationen, in denen kein geeignetes Display zur Verfügung steht oder bei denen die Augen mit anderen Aufgaben beschäftigt sind, wird Text-To-Speech für die Bedienung von Anwendungen genutzt. Dies spiegelt sich in der steigenden Nachfrage und dem stetig wachsenden Markt für TTS- und Spracherkennungslösungen wider.
TTS-Systeme lassen sich besonders in Kombination mit Spracherkennung und Speech-To-Text-Software für eine Vielzahl von Anwendungen in verschiedensten Branchen einsetzen. Nachfolgend eine ausschnitthafte Übersicht beliebter Use Cases:
Die Ergänzung von Produkten, Geräten oder Dienstleistungen mit Text-To-Speech bringt diverse Vorteile mit sich, insbesondere da die Einrichtung eines vorgefertigten TTS-Systems sehr simpel ist. Ein Überblick der wichtigsten Vorteile:
Wenn Sie und Ihr Unternehmen von den Vorteilen eines Text-To-Speech-Systems profitieren möchten, stehen wir Ihnen gerne für eine unverbindliche und kostenlose Erstberatung zur Verfügung. Unsere Consultants unterstützen Sie beim Prozess der Auswahl und Implementierung, sodass Ihr Unternehmen ein TTS-System erhält, das auf Ihre Wünsche und Anforderungen zugeschnitten ist.
Text-To-Speech bezeichnet den Prozess, textbasierte Informationen per künstlicher Spracherzeugung hörbar wiederzugeben. TTS wird oftmals in Kombination mit Spracherkennung eingesetzt, um die Interaktion mit Kommunikationssystemen zu erleichtern.
Kommerzielle Systeme arbeiten meist mit einer Vielzahl einzelner Sprachaufnahmen, die dem Kontext entsprechend aneinandergekettet und modelliert werden, um so eine natürlich klingende Sprachausgabe zu erzeugen.
Es gibt eine Vielzahl von Entwicklungsmethoden, die sich für unterschiedliche Einsatzmöglichkeiten eignen. Diverse Webservice-Anbieter stellen vorgefertigte und leicht integrierbare TTS-Systeme zur Verfügung. Unsere Berater helfen Ihnen, einen Überblick zu erhalten.
Da TTS-Systeme grundsätzlich zur Verbesserung der Bedienbarkeit dienen, können sie in verschiedensten Branchen sinnvoll genutzt werden. Beliebt ist der Einsatz von TTS in Dialogsystemen wie Support- und Kundenservice-Portalen, bei der Nutzung von smarten Geräten oder allgemein zur Bereitstellung barrierefreier Inhalte.
Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:
Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:
Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen:
Vollumfängliche Implementierungs- und Betriebsunterstützung für führende Softwareprodukte unserer Partnerunternehmen: