Reconnaissance optique de caractères (OCR)
Blue Prism fournit plusieurs capacités OCR pour le texte à l'écran :
Reconnaissance native des caractères
Utilisation de l'automatisation de surface
Lorsque le modélisateur d'application Blue Prism ne peut pas être utilisé directement pour identifier les éléments de l'application, une technique appelée automatisation de surface peut être utilisée pour capturer une image de l'écran applicatif et cartographier l'emplacement des éléments clés qui s'y trouvent. Ces applications peuvent être modélisées en utilisant des zones d'écran, la correspondance d'images et la reconnaissance de caractères. Cette technique est utile pour espionner les applications qui ne s'exécutent pas sur la même machine que Blue Prism Enterprise, et pour lesquelles d'autres modes espion ne sont pas disponibles.
La reconnaissance native de caractères basée sur la correspondance de police est exploitée via l'action Reconnaître le texte d'une étape de lecture lorsqu'elle est utilisée sur une région du modélisateur d'application précédemment capturée. Cela extrait les données de texte de la zone et les stocke dans un élément de données. Les paramètres d'entrée de l'action Reconnaître le texte sont la police, la couleur de premier plan et la couleur d'arrière-plan.
La reconnaissance native de caractères nécessite que la police soit générée avant d'être utilisée. Consultez la section Polices pour en savoir plus.
Utilisation d'OCR Plus
OCR Plus offre une reconnaissance de caractères améliorée avec une précision et une robustesse accrues en :
-
identifiant automatiquement les couleurs de premier plan et d'arrière-plan.
-
faisant la distinction entre des caractères visiblement identiques (tels que la lettre O et le chiffre 0) et en permettant la désambiguïsation via des schémas d'expression régulière (RegEx).
-
améliorant l'algorithme de correspondance de polices.
Cette action est exploitée via l'action Reconnaître le texte (OCR Plus) d'une étape de lecture. Les paramètres d'entrée sont la police et la RegEx facultative. Si aucun paramètre d'entrée n'est spécifié, le système reconnaîtra toujours la police et tentera de faire correspondre le mot aussi précisément que possible. Cependant, en cas d'ambiguïté, une RegEx par défaut est utilisée et accepte l'un des modèles de mots suivants :
- En majuscules puis en minuscules
- En majuscules ou seulement en minuscules
- Seuls les chiffres
Exemples d'expressions RegEx typiques :
- Nombre : [0-9]+
- Mot en majuscules puis en minuscules : [A-Z][a-z]*
- En majuscules et chaîne de chiffres : [0-9A-Z]+
Reconnaissance optique de caractères Tesseract
Dans les situations où il n'est pas approprié d'utiliser le moteur de reconnaissance native de caractères pour interagir avec le texte à l'écran, par exemple, à l’application du texte lissé ou pour interagir avec des copies numérisées ou autrement restreintes de documents électroniques, Blue Prism peut utiliser un moteur OCR Tesseract intégré pour reconnaître le texte en utilisant la correspondance de modèles et la reconnaissance de texte complexe basée sur la langue.
Afin d'optimiser l'efficacité de la reconnaissance de texte, un minimum de 300 points par pouce (ppp) est requis. Pour les images, telles que du texte à l'écran, où les ppp sont inférieurs à cette valeur, un paramètre Échelle augmentera artificiellement la taille de la région capturée avant de la passer au moteur. En règle générale, régler le facteur d'échelle sur 4 ou 5 fournira de bons résultats.
Le moteur OCR Tesseract est exploité via l'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture lorsqu'il est utilisé sur une zone du modélisateur d'application précédemment capturée et inclut les options pour lire du texte, des listes et des grilles. Il est également possible de produire des images prétravaillées dans un emplacement de diagnostic spécifique pour vérifier que la mise à l'échelle appliquée est suffisante pour la région sélectionnée.
Modules linguistiques
Les modules linguistiques à utiliser avec Tesseract peuvent être obtenus depuis Internet. Blue Prism travaille avec la version 4.0.0 de Tesseract et il est impératif que la version majeure correcte des fichiers de langue soit utilisée. Actuellement, la version 4.0.0 des fichiers de langue peut être téléchargée depuis le site Web de Tesseract.
Pour prendre en charge d'autres langues, téléchargez les fichiers adéquats et copiez-les dans le dossier Tesseract\tessdata (généralement C:\Program Files\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata).
Les fichiers de langue comportent en préfixe un code de langue, par exemple fra (français), deu (allemand), jpn (japonais) ou encore chi-tra (chinois traditionnel). Une fois les fichiers installés sur les dispositifs requis, ce code peut être spécifié dans le paramètre Langue de l'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture pour indiquer au moteur d'utiliser le module requis.
Mode de segmentation de page
L'action Lire le texte avec la reconnaissance optique de caractères d'une étape de lecture comprend un paramètre de texte facultatif, le mode de segmentation de page, qui permet de spécifier une valeur définie par Tesseract. Les valeurs qui peuvent être saisies dans ce paramètre sont affichées ci-dessous, avec une courte description de leur action.
Si aucune valeur n'est saisie pour le mode de segmentation de page, la valeur par défaut « Auto » sera utilisée.
Paramètre |
Description |
---|---|
OSD |
Orientation et détection de script (OSD) uniquement. |
AutoWithOSD |
Segmentation de page automatique avec OSD. |
AutoNoOCR |
Segmentation de page automatique, mais sans OSD ni OCR. |
Automatique |
Segmentation de page entièrement automatique, mais sans OSD. (Par défaut) |
Colonne |
Supposer une seule colonne de texte de taille variable. |
VerticalBlock |
Supposer un seul bloc uniforme de texte aligné verticalement. |
Bloc |
Supposer un seul bloc uniforme de texte. |
Ligne |
Traiter l'image comme une seule ligne de texte. |
Word |
Traiter l'image comme un seul mot. |
CircledWord |
Traiter l'image comme un seul mot dans un cercle. |
Caractère |
Traiter l'image comme un seul caractère. |
SparseText |
Trouver autant de texte que possible sans ordre particulier. |
SparseTextWithOSD |
Texte clairsemé avec OSD. |
RawLine |
Traite l'image comme une seule ligne de texte, ignorant les solutions de contournement spécifiques à Tesseract. |
Pour plus d'informations sur les modes de segmentation, veuillez consulter la documentation officielle fournie par Tesseract sur le site Web.