Optical Character Recognition (OCR, Texterkennung)

Blue Prism bietet verschiedene OCR-Funktionen für Bildschirmtext:

Native Zeichenerkennung

Oberflächenautomatisierung verwenden

Wenn der Blue Prism Anwendungsmodellierer nicht direkt verwendet werden kann, um Anwendungselemente zu identifizieren, kann eine Technik namens Oberflächenautomatisierung genutzt werden, um ein Bild des Anwendungsfensters zu erfassen und die Position von Schlüsselelementen darauf zuzuordnen. Solche Anwendungen können mithilfe von Bildschirmbereichen, Bildabgleichen und Zeichenerkennung modelliert werden. Diese Technik ist nützlich, um Anwendungen zu erfassen, die nicht auf demselben Computer wie Blue Prism Enterprise ausgeführt werden und für die keine anderen Erfassungsmodi verfügbar sind.

Die native Zeichenerkennung, die auf dem Schriftartenabgleich basiert, wird über die Aktion „Texterkennung“ in einer Lesephase genutzt, wenn sie für einen zuvor erfassten Anwendungsmodelliererbereich verwendet wird. Dadurch werden Textdaten aus dem Bereich extrahiert und in einem Datenelement gespeichert. Die Eingabeparameter für die Aktion Texterkennung sind Schriftart, Vordergrundfarbe und Hintergrundfarbe.

Für die native Zeichenerkennung muss die Schriftart vor der Verwendung generiert werden. Weitere Details finden Sie unter Schriftarten.

OCR Plus verwenden

OCR Plus bietet eine verbesserte Zeichenerkennung mit höherer Genauigkeit und Zuverlässigkeit durch:

  • Automatische Identifizierung von Vordergrund- und Hintergrundfarben.

  • Unterscheidung zwischen scheinbar identischen Zeichen (wie dem Buchstaben O und der Zahl 0) und Klärung durch RegEx-Muster (reguläre Ausdrücke).

  • Verbesserung des Algorithmus für den Schriftartenabgleich.

Dies wird über die Aktion Text erkennen (OCR Plus) in einer Lesephase genutzt. Die Eingabeparameter sind Schriftart und optional RegEx. Auch wenn keine Eingabeparameter angegeben sind, erkennt das System die Schriftart und versucht, das Wort so genau wie möglich abzugleichen. Wenn jedoch Unklarheiten bestehen, wird ein standardmäßiger regulärer Ausdruck verwendet, der eines der folgenden Wortmuster akzeptiert:

  • Großbuchstaben, dann Kleinbuchstaben
  • Großbuchstaben oder nur Kleinbuchstaben
  • Nur Zahlen

Beispiele für typische reguläre Ausdrücke:

  • Zahl: „[0-9]+“
  • Wort aus Großbuchstaben, dann Kleinbuchstaben: „[A-Z][a-z]*“
  • Zeichenfolge aus Großbuchstaben und Zahlen: „[0-9A-Z]+“

Für die native Zeichenerkennung sowie OCR Plus muss die Schriftart vor der Verwendung generiert werden. Die entsprechenden Optionen dafür sind im Dialogfeld „Schriftart-Generator“ auf dem Bildschirm „System – Schriftarten“ und im Dialogfeld „Blue Prism Schriftart generieren“ auf dem Bildschirm „Blue Prism Bereichseditor“ verfügbar. Für weitere Details siehe Schriftarten.

Tesseract OCR

In Situationen, in denen es nicht angemessen ist, die native Engine zur Zeichenerkennung zu verwenden, um mit Bildschirmtext zu interagieren, z. B. wenn geglätteter Text erzwungen wird oder mit gescannten oder anderweitig eingeschränkten Kopien elektronischer Dokumente interagiert wird, kann Blue Prism eine eingebettete Tesseract OCR-Engine verwenden, um Text mithilfe einer Mustererkennung und komplexen, sprachbasierten Texterkennung zu erfassen.

Für maximale Effektivität der Texterkennung ist eine Auflösung von mindestens 300 dpi (dots per inch) erforderlich. Bei Bildern wie Bildschirmtext mit einem niedrigeren dpi-Wert vergrößert ein Skalierungsparameter künstlich den erfassten Ausschnitt, bevor er an die Engine weitergegeben wird. Ein Skalierungsfaktor von 4 oder 5 liefert meist gute Ergebnisse.

Die Tesseract OCR-Engine wird über die Aktion Lesen des Textes mit OCR in einer Lesephase bei der Verwendung mit einem zuvor erfassten Anwendungsmodelliererbereich genutzt und bietet Optionen, um Text, Listen und Raster auszulesen. Die vorbereiteten Bilder können auch an spezifische Diagnoseverzeichnisse gesendet werden, um sicherzustellen, dass die angewandte Skalierung für den ausgewählten Bereich ausreicht.

Sprachpakete

Sprachpakete für Tesseract sind online erhältlich. Blue Prism ist mit Tesseract 4.0.0 kompatibel und es muss darauf geachtet werden, die richtige Hauptversion der Sprachdateien zu verwenden. Die Sprachdateien für Version 4.0.0 können derzeit auf der Website von Tesseract heruntergeladen werden.

Um andere Sprachen zu verwenden, laden Sie die entsprechenden Dateien in den Ordner „Tesseract\tessdata“ herunter (meist C:\Programme\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata).

Die Sprachdateien sind durch ein Präfix mit dem Sprachcode gekennzeichnet, z. B. deu (Deutsch), fra (Französisch), jpn (Japanisch), chi-tra (traditionelles Chinesisch). Nach der Installation auf allen erforderlichen Geräten kann dieser Code im Sprachparameter der Aktion Lesen des Textes mit OCR in einer Lesephase angegeben werden, damit die Engine das gewünschte Sprachpaket verwendet.

Seitensegmentierungsmodus

Die Aktion Lesen des Textes mit OCR in einer Lesephase verfügt über den optionalen Textparameter „Seitensegmentierungsmodus“, durch den ein von Tesseract definierter Wert angegeben werden kann. Die Werte, die in diesen Parameter eingegeben werden können, werden zusammen mit einer Kurzbeschreibung ihrer Aktion im Folgenden gezeigt.

Wird kein Wert für den Seitensegmentierungsmodus angegeben, wird der Standardwert „Auto“ verwendet.

Parameter

Beschreibung

OSD

Nur „Orientation and Script Detection“ (OSD)

AutoWithOSD

Automatische Seitensegmentierung mit OSD

AutoNoOCR

Automatische Seitensegmentierung, aber ohne OSD oder OCR

Auto

Vollautomatische Seitensegmentierung, aber ohne OSD (Standard)

Column

Erwartet eine einzelne Textspalte variabler Größe

VerticalBlock

Erwartet einen einzigen einheitlichen vertikal ausgerichteten Textblock

Block

Erwartet einen einzigen einheitlichen Textblock

Line

Behandelt das Bild als einzelne Textzeile

Word

Behandelt das Bild als einzelnes Wort

CircledWord

Behandelt das Bild als einzelnes Wort in einem Kreis

Character

Behandelt das Bild als einzelnes Zeichen

SparseText

Findet möglichst viel Text in keiner bestimmten Reihenfolge

SparseTextWithOSD

Wenig Text mit OSD

RawLine

Behandelt Bild als einzelne Textzeile, um Tesseract-spezifische Workarounds zu umgehen.

Weitere Informationen zu Segmentierungsmodi finden Sie in der offiziellen Dokumentation auf der Website von Tesseract.