mindsquare.de durchsuchen

Amazon Textract

Die Weiterverarbeitung von Dokumenten, die lediglich als Scan oder Fotografie vorliegen, stellt Unternehmen auch heutzutage noch immer vor große Herausforderungen. Dabei werden wichtige Inhalte dieser Dokumente in vielen Unternehmen von Hand abgetippt.

Andere Firmen setzen wiederum auf teure Spezialsoftware, die jedoch vorab konfiguriert und laufend angepasst werden muss, um akzeptable Ergebnisse zu erzielen. Beide Lösungen sind somit zeit- und kostenintensiv und passen so gar nicht in unsere neue digitale Welt, die sich lobt, mühselige Routinetätigkeiten durch Automatisierung zu bewältigen. Ein Ansatz, der verspricht, dieses Problem nachhaltig zu lösen, ist Amazon Textract. Doch ist das smarte AWS-Service wirklich die langersehnte Revolution im Bereich der Zeichenerkennung, wie funktioniert die Software und für wen eignet sich das Tool ganz besonders gut?

Wie Ihr Unternehmen von Künstlicher Intelligenz (KI) profitieren kann

In unserem E-Book erfahren Sie die wichtigsten Inhalte rund um das Thema künstliche Intelligenz & wie Sie davon profitieren können!

Was ist Amazon Textract?

Bei Textract handelt es sich um ein Amazon Web Service (AWS), mit dessen Hilfe Kunden Texte und Daten aus gescannten Dokumenten extrahieren können. Die Software geht hierbei weit über das klassische OCR (Optical Character Recognition) hinaus, da sie auch Inhalte und Informationen in Formularen und Tabellen sicher erkennen und auslesen kann. Das System unterstützt derzeit sowohl gewöhnliche Scans als auch Dateien im PDF-Format sowie Fotos. Zusätzlich kann Textract mit anderen Services von Amazon kombiniert werden. AWS-Services, die mit Textract zusammenarbeiten, sind beispielsweise Amazon Translate, Amazon Comprehend und Amazon Comprehend Medical.

Voraussetzungen

Um das Service zu nutzen, benötigen interessierte Kunden ein AWS-Konto bei Amazon. Die Registrierung selbst ist kostenfrei, wobei die Preise für die jeweiligen AWS-Services je nach gewähltem Modell und Nutzungsverhalten variieren. So bietet Amazon attraktive Mengenrabatte und die Möglichkeit, zusätzliche Kapazitäten bei Bedarf flexibel zu buchen, sodass auch bei steigendem Bedarf keine Engpässe entstehen.

Preisgestaltung

Mit dem AWS Free Tier haben Kunden die Möglichkeit, in den ersten drei Monaten bis zu 1.000 Seiten mit der Document Text API analysieren zu lassen. Als Zusatz bietet dieses Paket die Option, weitere 100 Seiten mit der Analyze Document API zu nutzen, die speziell für Formulare und Tabellen erstellt wurde. Jegliche weitere Nutzung ist mit Kosten verbunden, die sich je nach Region und gebuchter Kapazität leicht unterscheiden und auch Schwankungen unterworfen sind. So bezahlen Kunden in London für die Analyse von bis zu einer Million strukturierter Texte im Monat derzeit beispielsweise 1,75 US-Dollar für 1.000 Seiten. Bei einem Volumen von 100.000 Scans belaufen sich die monatlichen Kosten somit auf lediglich 175 US-Dollar. Bei aufwendigen Dokumenten, die Tabellen und Formulare enthalten, steigen die Preise jedoch deutlich an. So müssten Kunden im obigen Beispiel satte 7.500 US-Dollar pro Monat bezahlen, um 100.000 Scans zu digitalisieren, die neben gewöhnlichem Text auch Formulare und Tabellen enthalten. Die aktuellen Preise und Berechnungsbeispiele finden sich klar und übersichtlich aufbereitet auf der Webpräsenz von Textract.

Whitepaper: Künstliche Intelligenz im Vertrieb

In diesem Whitepaper stelle ich Ihnen die wichtigsten Inhalte zum Thema künstliche Intelligenz vor und erkläre Ihnen, wie sie die Arbeitsabläufe im Vertrieb optimieren.

Funktionen und Features

Im Gegensatz zu herkömmlicher OCR-Software setzt das Service auf modernste Technik und auf Erkenntnisse aus dem Bereich der künstlichen Intelligenz. Dieser Ansatz macht es möglich, eingescannte Dokumente ganz ohne vorherige Softwareanpassungen oder zusätzlichen Code zu lesen und die erfassten Daten digital abzuspeichern. So lassen sich Tausende Seiten in nur wenigen Stunden extrahieren und sofort in den notwendigen Geschäftsanwendungen nutzen. Kunden können die extrahierten Informationen entweder direkt in einer anderen Anwendung nutzen oder die digitalen Informationen in einer Datenbank speichern. Dabei verwendet das System Machine Learning, wodurch es mit der Zeit immer bessere und genauere Ergebnisse liefert. Amazon selbst behauptet, das System mit mehreren Millionen von Dokumenten aus den unterschiedlichsten Bereichen trainiert zu haben. So erkennt Textract selbstständig, ob es sich bei dem Dokument um einen Vertrag, eine Rechnung, ein Anmeldeformular oder um eine Steuerunterlage handelt. Die wichtigsten Features der Software sind:

  • Intelligente Suchindizes
  • Automatisierte Dokumentenverarbeitungs-Workflows
  • Archivierung

Das AWS-Service integriert smarte Suchindizes, die das Auffinden der benötigten Inhalte deutlich beschleunigt. Die gewünschten Indizes können hierbei im sogenannten Amazon Elasticsearch erstellt werden. Dank dieses Features haben Kunden die Möglichkeit, Tausende von Dokumenten innerhalb kürzester Zeit nach den benötigten Schlüsselwörtern zu durchsuchen. Ein mühsames manuelles Suchen und Lesen der Dokumente entfällt somit zur Gänze.

Automatisierte Dokumentenverarbeitungs-Workflows

Textract erlaubt es, die Eingaben für Genehmigungs-Workflows automatisch bereitzustellen und an die notwendigen Workflows weiterzuleiten. So können beispielsweise Workflows, wie die Genehmigung von Reiseanträgen, ohne menschliches Zutun durchgeführt werden. Dabei verwendet das System alle Informationen aus den gescannten Dokumenten, die für eine erfolgreiche Antragsprüfung und Antragsgenehmigung notwendig sind. Der Mitarbeiter erhält so in nur wenigen Minuten die notwendige Reisegenehmigung, ohne die Daten selbst in das System eingeben zu müssen.

Archivierung

Das Dokumentarchiv dient nicht nur als zentrale Speicherstelle, sondern ermöglicht es Nutzern auch, bestimmte Regeln festzulegen und deren Einhaltung automatisch zu überprüfen. Dies ist insbesondere bei Dokumenten, die möglicherweise der Prüfpflicht oder Schwärzungspflicht unterliegen, ein großer Vorteil. Dabei erkennt das System die festgelegten Schlüsselwertpaare selbstständig und wendet die erfassten Regeln automatisch auf die betroffenen Textabschnitte an.

Für wen eignet sich Textract ganz besonders gut?

Das Service eignet sich besonders für Unternehmen, die im täglichen Arbeitsalltag mit vielen Scans konfrontiert sind. Besonders kritische Dokumente, wie beispielsweise Verträge, Antragsformulare oder Steuerdokumente, lassen sich mit der Software aus dem Hause Amazon einfach und sicher in digitale Inhalte umwandeln. Das reduziert den Arbeitsaufwand sowie Kosten und ist zusätzlich ein wichtiger Schritt in Richtung Digitalisierung und Industrie 4.0.

Die Stärken

Textract ermöglicht die genaue und zügige Datenextraktion aus gescannten Dokumenten, Tabellen und Formularen. Dabei erkennt die Software das Layout und die Schlüsselelemente des vorliegenden Dokuments automatisch und schafft es, Datenbeziehungen herzustellen. Damit werden die Zeichen nicht losgelöst voneinander digital umgewandelt, sondern in eine Beziehung gesetzt, sodass der Kontext durchgehend ersichtlich ist. Die erfassten Daten können danach sofort weiterverwendet oder bei Bedarf auch in einer Datenbank gespeichert werden. Die intelligente Vorgehensweise machen aufwendige Konfigurationen sowie eine zusätzliche Programmierung und Codepflege obsolet.

Die Schwächen

Auch wenn die Technik hinter dem AWS-Service überaus ausgefeilt ist, hängen die Ergebnisse dennoch stark von den jeweiligen Datentypen ab. Kunden, die das Service beispielsweise für Dokumente nutzen, mit denen das System bereits Erfahrung sammeln konnte, werden mit großer Wahrscheinlichkeit sehr gute Ergebnisse erzielen. Wird das System jedoch mit Typen von Dokumenten gespeist, mit denen das Service noch keine oder nur sehr wenig Erfahrung sammeln konnte, wird das Ergebnis der Digitalisierung womöglich hinter den Erwartungen zurückbleiben. Für den schnellen Test, ob sich die Anwendung für den gewünschten Einsatzbereich lohnt, hat Amazon daher eine Demo-Seite auf der eigenen Webpräsenz bereitgestellt, auf der Dokumente getestet werden können.

Fazit

Amazon Textract extrahiert strukturierte Daten aus gescannten Dokumenten, Formularen und Tabellen. Dabei werden sämtliche Inhalte immer im Kontext digitalisiert und dem Kunden in strukturierter Form bereitgestellt. Die Strukturierung erlaubt smarte Suchen sowie das Erfassen von individuellen Regeln und die automatische Durchführung von Genehmigungs-Workflows. All diese Features machen das praktische Tool zu einer attraktiven Lösung, die weit mehr Komfort und Möglichkeiten bietet als herkömmliche OCR-Software. Ob sich der Einsatz des AWS-Services lohnt, ist jedoch abhängig von der Art der Dokumente, die digitalisiert werden sollen, wobei aufwendige Dokumente zudem mit nicht unerheblichen Kosten verbunden sind.

Wie geht es weiter?

Schritt 1

Sie nehmen telefonisch, per Mail oder Formular Kontakt auf und schildern uns Ihr Anliegen.

Schritt 2

Zur Klärung von Rückfragen und von Details zum weiteren Vorgehen melden wir uns telefonisch bei Ihnen.

Schritt 3

Wir unterbreiten Ihnen ein Angebot und unterstützen Sie gerne auch bei der Präsentation für Ihr Management.

Passende Angebote zum Thema

Internes Kontrollsystem für Ihr SAP
Überwachen Sie die Einhaltung Ihres aufgebauten Berechtigungskonzeptes regelmäßig, um Ihr System nachhaltig sicher zu halten. Ein internes Kontrollsystem für Ihr SAP-System unterstützt dabei, indem es Abweichungen von den definierten Regelungen zuverlässig erkennt.
Unser Tool zur Massenaufnahme von Objekten in einen Transport hilft Ihnen, wenn Sie eine große Menge von Objekten in einen Transport (Workbench oder Transport von Kopien) aufnehmen müssen.
Immer mehr Unternehmen sind der Gefahr vor Cyberangriffen ausgesetzt und sind gefährdet durch potenzielle Datenverluste. Denn die IT-Umgebungen verändern sich kontinuierlich und die Bedrohungen für Unternehmen werden immer gefährlicher. Das SAP Produkt Enterprise Threat Detection (SAP ETD) ist eine Security-Lösung, welche speziell auf die Angriffserkennung in Echtzeit spezialisiert ist.