Reconnaissance optique de caractères (OCR)

Blue Prism fournit plusieurs capacités OCR pour le texte à l'écran :

Reconnaissance native des caractères

Utilisation de l'automatisation de surface

Lorsque le modélisateur d'application Blue Prism ne peut pas être utilisé directement pour identifier les éléments de l'application, une technique appelée automatisation de surface peut être utilisée pour capturer une image de l'écran applicatif et cartographier l'emplacement des éléments clés qui s'y trouvent. Ces applications peuvent être modélisées en utilisant des zones d'écran, la correspondance d'images et la reconnaissance de caractères. Cette technique est utile pour espionner les applications qui ne s'exécutent pas sur la même machine que Blue Prism Enterprise, et pour lesquelles d'autres modes espion ne sont pas disponibles.

La reconnaissance native de caractères basée sur la correspondance de police est exploitée via l'action Reconnaître le texte d'une étape de lecture lorsqu'elle est utilisée sur une région du modélisateur d'application précédemment capturée. Cela extrait les données de texte de la zone et les stocke dans un élément de données. Les paramètres d'entrée de l'action Reconnaître le texte sont la police, la couleur de premier plan et la couleur d'arrière-plan.

La reconnaissance native de caractères nécessite que la police soit générée avant d'être utilisée. Consultez la section Polices pour en savoir plus.

Utilisation d'OCR Plus

OCR Plus offre une reconnaissance de caractères améliorée avec une précision et une robustesse accrues en :

  • identifiant automatiquement les couleurs de premier plan et d'arrière-plan.

  • faisant la distinction entre des caractères visiblement identiques (tels que la lettre O et le chiffre 0) et en permettant la désambiguïsation via des schémas d'expression régulière (RegEx).

  • améliorant l'algorithme de correspondance de polices.

Cette action est exploitée via l'action Reconnaître le texte (OCR Plus) d'une étape de lecture. Les paramètres d'entrée sont la police et la RegEx facultative. Si aucun paramètre d'entrée n'est spécifié, le système reconnaîtra toujours la police et tentera de faire correspondre le mot aussi précisément que possible. Cependant, en cas d'ambiguïté, une RegEx par défaut est utilisée et accepte l'un des modèles de mots suivants :

  • En majuscules puis en minuscules
  • En majuscules ou seulement en minuscules
  • Seuls les chiffres

Exemples d'expressions RegEx typiques :

  • Nombre : [0-9]+
  • Mot en majuscules puis en minuscules : [A-Z][a-z]*
  • En majuscules et chaîne de chiffres : [0-9A-Z]+

La reconnaissance de caractères native et OCR Plus nécessitent que la police soit générée avant d'être utilisée. Les options correspondantes sont disponibles dans la boîte de dialogue Générateur de polices, accessible à partir de l'écran Système - Polices, et dans la boîte de dialogue Générer une police Blue Prism, accessible à partir de l'écran Éditeurs de zones Blue Prism. Pour en savoir plus, voir Polices.

Reconnaissance optique de caractères Tesseract

Dans les situations où il n'est pas approprié d'utiliser le moteur de reconnaissance native de caractères pour interagir avec le texte à l'écran, par exemple, à l’application du texte lissé ou pour interagir avec des copies numérisées ou autrement restreintes de documents électroniques, Blue Prism peut utiliser un moteur OCR Tesseract intégré pour reconnaître le texte en utilisant la correspondance de modèles et la reconnaissance de texte complexe basée sur la langue.

Afin d'optimiser l'efficacité de la reconnaissance de texte, un minimum de 300 points par pouce (ppp) est requis. Pour les images, telles que du texte à l'écran, où les ppp sont inférieurs à cette valeur, un paramètre Échelle augmentera artificiellement la taille de la région capturée avant de la passer au moteur. En règle générale, régler le facteur d'échelle sur 4 ou 5 fournira de bons résultats.

Le moteur OCR Tesseract est exploité via l'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture lorsqu'il est utilisé sur une zone du modélisateur d'application précédemment capturée et inclut les options pour lire du texte, des listes et des grilles. Il est également possible de produire des images prétravaillées dans un emplacement de diagnostic spécifique pour vérifier que la mise à l'échelle appliquée est suffisante pour la région sélectionnée.

Modules linguistiques

Les modules linguistiques à utiliser avec Tesseract peuvent être obtenus depuis Internet. Blue Prism travaille avec la version 4.0.0 de Tesseract et il est impératif que la version majeure correcte des fichiers de langue soit utilisée. Actuellement, la version 4.0.0 des fichiers de langue peut être téléchargée depuis le site Web de Tesseract.

Pour prendre en charge d'autres langues, téléchargez les fichiers adéquats et copiez-les dans le dossier Tesseract\tessdata (généralement C:\Program Files\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata).

Les fichiers de langue comportent en préfixe un code de langue, par exemple fra (français), deu (allemand), jpn (japonais) ou encore chi-tra (chinois traditionnel). Une fois les fichiers installés sur les dispositifs requis, ce code peut être spécifié dans le paramètre Langue de l'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture pour indiquer au moteur d'utiliser le module requis.

Mode de segmentation de page

L'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture comprend un paramètre de texte facultatif, le mode de segmentation de page, qui permet de spécifier une valeur définie par Tesseract. Les valeurs qui peuvent être saisies dans ce paramètre sont affichées ci-dessous, avec une courte description de leur action.

Si aucune valeur n'est saisie pour le mode de segmentation de page, la valeur par défaut « Auto » sera utilisée.

Paramètre

Description

OSD

Orientation et détection de script (OSD) uniquement.

AutoWithOSD

Segmentation de page automatique avec OSD.

AutoNoOCR

Segmentation de page automatique, mais sans OSD ni OCR.

Automatique

Segmentation de page entièrement automatique, mais sans OSD. (Par défaut)

Colonne

Supposer une seule colonne de texte de taille variable.

VerticalBlock

Supposer un seul bloc uniforme de texte aligné verticalement.

Bloc

Supposer un seul bloc uniforme de texte.

Ligne

Traiter l'image comme une seule ligne de texte.

Word

Traiter l'image comme un seul mot.

CircledWord

Traiter l'image comme un seul mot dans un cercle.

Caractère

Traiter l'image comme un seul caractère.

SparseText

Trouver autant de texte que possible sans ordre particulier.

SparseTextWithOSD

Texte clairsemé avec OSD.

RawLine

Traite l'image comme une seule ligne de texte, ignorant les solutions de contournement spécifiques à Tesseract.

Pour plus d'informations sur les modes de segmentation, veuillez consulter la documentation officielle fournie par Tesseract sur le site Web.