mindsquare.de durchsuchen

Amazon Lex

Mit den Services Lex und Transcribe bietet Amazon eine Konversationsschnittstelle für verschiedene Anwendungen an. Der Service erfüllt dabei zwei Funktionen gleichzeitig: Er wandelt gesprochene Sprache in Text um und bietet gleichzeitig Tools für die Erkennung der Sprachabsicht.

Um das zu realisieren, greift Amazon auf modernste Methoden des Deep-Learnings zurück. Es handelt sich hierbei um die gleichen Technologien, die Amazon selbst für die Entwicklung von Alexa verwendet. Als automatischer Spracherkennungsservice dient dabei Amazon Transcribe als Teil von Amazon Lex. Amazon stellt diese Dienste im Rahmen der Amazon Web Services (AWS) in der Cloud zur Verfügung.

Features

Mit Lex stellt Amazon eine potente Lösung für eines der großen Probleme in den Computerwissenschaften vor. Das Sprachverständnis vieler Softwareprogramme war in der Vergangenheit nur unzureichend ausgeprägt. Klassische Algorithmen erwiesen sich als wenig geeignet für die Interpretation von menschlicher Sprache. Mit Lex bietet Amazon seinen Kunden die Möglichkeit, auf Deep-Learning-Algorithmen basierende Bots zu erstellen, die zu einer leistungsfähigen Sprachverarbeitung fähig sind. Diese Chatbots lassen sich dann in verschiedene Anwendungen integrieren und steigern so die Produktivität. Deep-Learning-Algorithmen sind jedoch sehr ressourcenintensiv und sind auf eine entsprechende Infrastruktur angewiesen. Amazon stellt im Rahmen von Lex daher alle Ressourcen zur Verfügung, die für die Nutzung moderner Sprach-Bots erforderlich sind.

AWS Lambda

Zu den wichtigen Features gehört die Integration in AWS Lambda. Damit lässt sich für den Datenabruf die Back-End-Unternehmenslogik ausführen und Updates sind aktivierbar. Weiterhin ist es möglich, die einmal erstellten Bots sofort auf mobile Clients, auf Chat-Plattformen oder auf IoT-Geräte aufzuspielen. Weiterhin stellt Amazon die für die Überwachung der Bots erforderlichen Tools zur Verfügung. Alles das findet im Rahmen einer benutzerfreundlichen End-to-End-Lösung statt.

Dienstprogramm-Eingabeaufforderungen

Zu den Features von Lex gehören auch die Dienstprogramm-Eingabeaufforderungen. Diese sind zu unterscheiden in Eingabeaufforderungen zur Bestätigung und Eingabeaufforderungen zur Fehlerbehebung. Konnte Lex eine Mitteilung zum Beispiel eines Kunden im Callcenter nicht sicher interpretieren, erfolgt eine Nachfrage und der Kunde muss seine Mitteilung für mehr Klarheit noch einmal wiederholen. Erst danach erfolgt die Ausführung der Back-End-Unternehmenslogik. Das ist zum Beispiel auch dann nützlich, wenn ein Anrufer eine Reservierung noch einmal bestätigen soll. Diese Eingabeaufforderung zur Fehlerbehebung dient also einer höheren Zuverlässigkeit der Spracherkennung und Umsetzung. Der Dienst ist damit in der Lage, Probleme bei der Sprachverständlichkeit selbstständig zu lösen. Sollte die Spracheingabe eines Benutzers keiner programmierten Absicht entsprechen, kann das Programm um Wiederholung beten. Der Anwender stellt ein, wie viele Wiederholungsvorgänge maximal vorgesehen sein sollen und welche Verabschiedungsnachricht Lex abspielen soll, wenn keine Eingabe durch den Benutzer mehr erforderlich ist. Im Idealfall ergibt sich damit ein hoher Automatisierungsgrad, bei dem zu keinem Zeitpunkt der Eingriff eines menschlichen Agenten erforderlich ist.

Funktion/Architektur

Eine fortschrittliche Deep-Learning-Architektur ist das Herzstück von Amazon Lex. Unter Deep Learning sind verschiedene Optimierungsmethoden zu verstehen, auf die ein künstliches neuronales Netz zurückgreift. Moderne Lernalgorithmen helfen im Falle von Lex und Transcribe dabei, Sprache zu erkennen, zu interpretieren und in verschiedene Output-Formate zu übersetzen. Die neuronalen Netze können eine sehr komplexe innere Struktur aufweisen. Deep-Learning-Algorithmen finden heute in der Wissenschaft und in der Wirtschaft vielfältige Anwendungen. Grundsätzlich sind diese Algorithmen nützlich für alle Aufgaben, die ein Mensch einfach lösen kann, für die sich aber nur schwer mathematische Regeln finden lassen. Das gilt zum Beispiel für das Verstehen von Sprache. Die Deep-Learning-Netze besitzen Neuronen für die Input- und für die Output-Schicht sowie viele weitere verborgene Neuronen-Schichten dazwischen. Diese Netzwerke sind lernfähig und anpassbar und lassen sich daher auch trainieren. Ein Service wie Lex oder Transcribe ist also umso nützlicher, je mehr Nutzer auf ihn zurückgreifen.

Amazon Transcribe

Zu den Funktionen von Amazon Transcribe gehört das Erstellen von leicht lesbaren Transkriptionen. Der Fließtext enthält dabei auch eine korrekte Zeichensetzung. Diese realisiert Amazon wiederum mit Hilfe von Deep-Learning-Algorithmen. Auch Formatierungen fügt Transcribe automatisch ein. Im Ergebnis erhält der Anwender umgehend eine gut lesbare und ohne weitere Bearbeitung verwertbare Transkription. Weiterhin generiert Transcribe für jedes Wort einen Zeitstempel. Das erleichtert das Auffinden der transkribierten Stelle im Original-Audiodokument.

Stimmerkennung

Es ist sogar möglich, mehrere Sprecher voneinander zu unterscheiden. Die Software erkennt selbstständig, wann der Sprecher wechselt und weist später die erstellten Texte den verschiedenen Sprechern zu. Das ist vorteilhaft beim Transkribieren von Telefongesprächen oder Meetings. Es handelt sich hierbei um ein weiteres Feature, das den Arbeitsaufwand beim Erstellen der Transkriptionen deutlich verringert. Weiterhin ist es möglich, das Vokabular, auf das Amazon Transcribe zurückgreifen kann, bei Bedarf zu erweitern und anzupassen. Damit ist es möglich, dem Basisvokabular Spezialbegriffe oder sehr selten verwendete Vokabeln hinzuzufügen. Dadurch lässt sich die Präzision der Transkriptionen weiter erhöhen. Nützlich ist die Vokabularerweiterung zum Beispiel dann, wenn der Anwender Produktnamen oder domänenspezifische Terminologie einpflegen möchte.

Echtzeit-Transkription

Als weiteres Feature beherrscht Transcribe die Echtzeit-Transkription bzw. das Transkriptions-Streaming. Damit ist es möglich, Audio-Streaming in Echtzeit in eine Transkription umzusetzen. Amazon setzt hierfür auf eine sichere Übertragung der Daten über das Protokoll HTTP 2. Der Anwender erhält den fertigen Text sofort zurück.

Amazon Lex

Kanalidentifizierung

Abschließend ist noch die Kanalidentifizierung von Transcribe zu nennen. Dabei zeichnet der Dienst jeden Sprecher auf einem anderen Kanal auf. Das ist zum Beispiel nützlich für Kontaktcenter, die dann für jeden Sprecher eine einzelne Audio-Datei erhalten.

Komponenten

Die wichtigste Komponente von Lex ist der Service Transcribe. Hierbei handelt es sich um einen leistungsfähigen, automatisierten Spracherkennungsservice (ASR), der Anwender die passende Funktionalität für Sprach-zu-Text-Anwendungen zur Verfügung stellt. Transcribe ist dabei nur im Rahmen von Lex verwendbar. Der klassische Anwendungsfall ist die Transkription von Anrufen, die bei einem Kundenservice eingehen.

Für die Nutzung von Transcribe in verschiedenen Anwendungen stellt Amazon die passenden APIs zur Verfügung. SDKs stehen zum Beispiel für .NET, Java und JavaScript sowie PHP, Go, Phyton und Ruby zur Auswahl. Amazon richtet sich damit an eine Vielzahl an Entwicklern und möchte einem möglichst großen Kundenkreis Zugang zu den Funktionen von Transcribe verschaffen.

Möglichkeiten

Für den Service Lex ergeben sich in der Praxis vielfältige Anwendungsfälle. Dazu gehört zum Beispiel die Bereitstellung von Call-Center-Bots. Für viele Aufgaben ist ein menschlicher Agent nicht mehr erforderlich, dank der Konversationsschnittstelle können die Nutzer stattdessen den Chatbot beauftragen, Passwörter zu ändern oder den aktuellen Kontostand durchzugeben. Dank der automatischen Stimmerkennung und dem natürlichen Sprachverständnis ist es möglich, die Absicht des Anrufers vollautomatisch zu ermitteln. Es ist nicht erforderlich, dass der Anrufer Standard-Sätze oder vorgegebene Sätze verwendet. Stattdessen ist eine natürliche Gesprächsführung möglich. Lex nutzt dabei eine optimale Abtastrate von 8 kHz für Telefon-Audio.

Informationsbots

Einen anderen Anwendungsfall stellen die Informationsbots dar. Der Anwender erstellt hierfür einen Lex-Bot und stellt diesen auf Mobilgeräten oder in Chatdiensten oder auf einem IoT-Gerät bereit. Der Nutzer kann den Bot dann für Verbraucheranfragen nutzen. Das kann zum Beispiel die Abfrage aktueller Nachrichten sein, von Spielständen im Sport oder des Wetters. Oder das Unternehmen konfiguriert einen Lex-Bot für die Terminbuchung. Krankenhäuser und Ärzte zum Beispiel könnten einen solchen Bot einsetzen für die automatische Terminbuchung. Der Patient spricht mit dem Bot wie mit einer normalen Sprechstundenhilfe.

Anwendungsbots

Möglich ist auch die Erstellung sogenannter Anwendungsbots, die den Nutzer bei der Bewältigung verschiedener Aufgaben unterstützen. Der Bot kann beim Zugriff auf das Bankkonto helfen, Karten für Konzertveranstaltungen reservieren oder ein Taxi bestellen. Der Nutzer muss diese Aufgaben nicht mehr selbst auf seinem Smartphone ausführen und beauftragt stattdessen den Bot. Der kann überall anrufen, wo ein Mensch auch anrufen würde.

Unternehmensproduktivitätsbots

Eine weitere wichtige Anwendungskategorie stellen die Unternehmensproduktivitätsbots dar. Diese übernehmen allgemeine Arbeitstätigkeiten in den Unternehmen und entlasten die Mitarbeiter. Statt selbst auf den Zendesk für den Kundendienststatus oder auf den HubSpot für Marketingleistungen zuzugreifen, delegiert der Mitarbeiter diese Aufgabe an den Produktivitätsbot. Damit sind erhebliche Effizienzsteigerungen im Unternehmen erzielbar.

Anbindung an IoT-Geräte

Möglich ist weiterhin eine direkte Anbindung an IoT-Geräte. Der Nutzer kann zum Beispiel über sein IoT-Gerät eine Anfrage erstellen und bestimmte Daten abrufen, die Lex dann zur Verfügung stellt. Die Anfrage liegt in Audioform vor, Lex kann diese Sprachanfrage interpretieren und an das jeweilige IoT-Gerät eine Antwort senden, die Lex aus einer der verschiedenen Datenbanken wie Amazon DynamoDB oder Amazon SNS sammelt. Damit lassen sich zum Beispiel Forschungsprojekte oder die Arbeit von Studenten effektiv unterstützen.

Vor- und Nachteile

Chatbots

Zu den Vorzügen der Konversationsschnittstelle Lex gehört die hohe Benutzerfreundlichkeit. Amazon stellt eine Konsole zur Verfügung, die der Anwender für die Erstellung des Chatbots verwendet. Es genügt, einige wenige Beispielsätze anzugeben und Lex beginnt sofort damit, ein passendes Sprachmodell zu entwickeln. Die Integration in die eigene Anwendung gelingt ebenso schnell. Da Amazon die Funktionalität über AWS bereitstellt, profitiert der Nutzer von einer hohen Skalierbarkeit.

Die Sprachübersetzung und Sprachinterpretation per Deep-Learning kann in der Praxis sehr ressourcenintensiv sein. Der Nutzer muss sich über die Hardware jedoch keine Gedanken machen: Amazon stellt immer die ausreichenden Hardwareressourcen im Rahmen der Cloud zur Verfügung. Das ist einer der entscheidenden Gründe, weshalb sich die Auslagerung von Chatbots zu einem externen Dienst wie Lex so sehr lohnt. Es handelt sich damit um einen vollständig verwalteten Service. Eine schnell wachsende Kundenbindung stellt also kein Problem dar, weil alle erforderlichen Ressourcen für die Verarbeitung von Sprach- und Texteingaben mitskalieren.

Kostengünstig

Zu den Vorteilen gehört auch das Abrechnungsmodell. Amazon belastet seine Kunden hier nicht mit Vorabkosten oder mit einer Mindestgebühr. Stattdessen zahlt der Anwender nur für tatsächlich in Anspruch genommene Leistung. Amazon sieht niedrige Kosten pro Anfrage vor und führt eine nutzungsbasierte Abrechnung durch. In Abrechnungszeiträumen mit geringer Inanspruchnahme von Lex und Transcribe fallen also auch geringere Kosten an.

Integration mit AWS

Als Nachteil kann sich die enge Integration mit dem Cloud-Service AWS erweisen. Wer diese Cloud-Lösung nicht nutzen möchte, kann nicht in gleichem Maße von den Vorteilen von Lex für sein Unternehmen profitieren. Wer Lex und Transcribe möglichst produktiv einsetzen möchte, muss sich daher auch in die Cloud von AWS begeben.

Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Für wen ist der Service gedacht?

Lex ist lohnenswert für alle Unternehmen, die eigene Chatbots kostengünstig in ihre Anwendungen integrieren möchten. Naheliegend ist eine Nutzung des Services vor allem dann, wenn das eigene Unternehmen bereits Dienste von AWS nutzt. Lex sieht standardmäßig eine Integration mit AWS Lambda, mit AWS MobileHub und mit Amazon CloudWatch vor ebenso wie mit weiteren Services wie Amazon Cognito oder Amazon DynamoDB. Der Nutzer profitiert also wie gehabt von der Sicherheit und den Möglichkeiten der Überwachung und der Benutzerauthentifikation, wie sie auf der AWS-Plattform gegeben sind.

Fazit

Mit Lex und Transcribe stehen dem Anwender zwei fortschrittliche und leistungsfähige Services zur Verfügung, mit denen sich Sprach-Bots unkompliziert umsetzen lassen. Zum Service gehört eine einfach gehaltene Benutzeroberfläche für die Erstellung der Bots. Zudem hat Amazon sich viel Gedanken gemacht über eine möglichst einfache Integration in verschiedene Anwendungen. Das macht diesen Service so interessant für viele verschiedene Unternehmen und auch solche Anwender, die bisher noch nicht mit Deep-Learning-Systemen gearbeitet haben. Ein tiefes technisches Verständnis der zugrundeliegenden Algorithmen ist vonseiten des einsetzenden Unternehmens nicht erforderlich. Amazon kümmert sich um das Training der Algorithmen und stellt alle erforderlichen Hardwareressourcen im Rahmen eines vollständig verwalteten Services zur Verfügung. Damit ist es nicht erforderlich, im eigenen Unternehmen Expertise und Strukturen aufzubauen. Zudem punktet das Angebot mit einer fairen Preisgestaltung.

Wie geht es weiter?

Schritt 1

Sie nehmen telefonisch, per Mail oder Formular Kontakt auf und schildern uns Ihr Anliegen.

Schritt 2

Zur Klärung von Rückfragen und von Details zum weiteren Vorgehen melden wir uns telefonisch bei Ihnen.

Schritt 3

Wir unterbreiten Ihnen ein Angebot und unterstützen Sie gerne auch bei der Präsentation für Ihr Management.