Reconocimiento óptico de caracteres (OCR)
Blue Prism ofrece varias capacidades de OCR para texto en pantalla:
Reconocimiento nativo de caracteres
Uso de la automatización de superficies
Si Blue Prism Application Modeller no se puede utilizar directamente para identificar los elementos de la aplicación, se puede utilizar una técnica llamada automatización de superficies para capturar una imagen de la pantalla de la aplicación y asignar la ubicación de los elementos clave en ella. Tales aplicaciones se pueden modelar con regiones de pantalla, coincidencia de imágenes y reconocimiento de caracteres. Esta técnica es útil para aplicaciones de espionaje que no se ejecutan en la misma máquina que Blue Prism Enterprise y en las que otros modos de espionaje no están disponibles.
El reconocimiento nativo de caracteres basado en la coincidencia de fuentes se aprovecha mediante la acción Reconocer texto en una fase de lectura cuando se utiliza contra una región de Application Modeller capturada previamente. Esto extrae datos de texto de la región y los almacena en un elemento de datos. Los parámetros de entrada para la acción Reconocer texto son fuente, color de primer plano y color de fondo.
El reconocimiento nativo de caracteres requiere que se genere la fuente antes de utilizarla. Para obtener más detalles, consulte Fuentes.
Uso de OCR Plus
OCR Plus brinda un reconocimiento de caracteres mejorado con mayor precisión y solidez al realizar lo siguiente:
-
Identificar automáticamente los colores de primer plano y de fondo.
-
Distinguir entre caracteres aparentemente idénticos (como la letra O y el número 0) y permitir la desambiguación a través de patrones de expresión regular (RegEx).
-
Mejorar el algoritmo de coincidencia de fuente.
Esto se aprovecha a través de la acción Reconocer texto (OCR Plus) en una fase de lectura. Los parámetros de entrada son fuente y RegEx opcional. Si no se especifican parámetros de entrada, el sistema seguirá reconociendo la fuente e intentará hacer coincidir la palabra lo más posible. Sin embargo, si hay alguna ambigüedad, se utiliza una RegEx predeterminada que acepta uno de los siguientes patrones de palabras:
- Mayúsculas y luego minúsculas
- Mayúsculas o solo minúsculas
- Solo números
Ejemplos de expresiones típicas de RegEx:
- Número: “[0-9]+”
- Palabra en mayúsculas y luego minúsculas: “[A-Z][a-z]*”
- Mayúsculas y cadena numérica: “[0-9A-Z]+”
Tesseract OCR
Para situaciones en las que no es adecuado usar el motor de reconocimiento nativo de caracteres para interactuar con texto en pantalla, por ejemplo, donde se aplica texto suavizado o para interactuar con copias escaneadas o restringidas de documentos electrónicos, Blue Prism puede usar un motor de Tesseract OCR integrado para reconocer texto mediante coincidencia de patrones y reconocimiento de texto complejo basado en el lenguaje.
Para maximizar la efectividad del reconocimiento de texto, se requiere un mínimo de 300 puntos por pulgada (dpi). Para las imágenes, como el texto en pantalla, donde el dpi es menor que esto, un parámetro de escala aumentará artificialmente el tamaño de la región capturada antes de pasarlo al motor. Generalmente, establecer el factor de escala en 4 o 5 proporcionará resultados exitosos.
El motor de Tesseract OCR se aprovecha a través de la acción Leer texto con OCR en una fase de lectura cuando se utiliza con una región de Application Modeller capturada anteriormente e incluye las opciones para leer texto, listas y cuadrículas. También es posible enviar las imágenes trabajadas previamente a una ubicación de diagnóstico específica para permitir la verificación de que la escala aplicada es suficiente para la región seleccionada.
Paquetes de idiomas
Los paquetes de idiomas para usar con Tesseract se pueden obtener en Internet. Blue Prism funciona con la versión 4.0.0 de Tesseract y es imperativo que se utilice con la versión principal correcta de los archivos de idioma. Actualmente, los archivos de idioma versión 4.0.0 se pueden descargar del sitio web de Tesseract.
Si desea agregar soporte para otro idioma, descargue los archivos correspondientes y cópielos en la carpeta Tesseract\tessdata (generalmente C:\Archivos de programa\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata).
Los archivos de idioma tienen como prefijo un código de idioma, por ejemplo., fra (francés), deu (alemán), jpn (japonés), chi-tra (chino tradicional). Una vez instalado en cada uno de los dispositivos requeridos, este código puede especificarse en el parámetro Idioma de la acción Leer texto con OCR dentro de una fase de lectura, para indicar al motor que use el paquete requerido.
Modo de segmentación de página
La acción Leer texto con OCR en una fase de lectura tiene un parámetro de texto opcional Modo de segmentación de página, lo que permite especificar un valor definido por Tesseract. Los valores que se pueden introducir en este parámetro se muestran a continuación, junto con una breve descripción de su acción.
Si no se introduce ningún valor para el Modo de segmentación de página, se utilizará el valor predeterminado Automático.
Parámetro |
Descripción |
---|---|
OSD |
Orientación y detección de secuencias de comandos (OSD) solamente |
Automático con OSD |
Segmentación automática de página con OSD. |
Automático sin OCR |
Segmentación automática de página, pero sin OSD ni OCR. |
Automático |
Segmentación de página completamente automática, pero sin OSD. (Predeterminado) |
Columna |
Asumir una sola columna de texto de tamaños variables |
VerticalBlock |
Asumir un solo bloque uniforme de texto alineado verticalmente |
Bloque |
Asumir un solo bloque uniforme de texto |
Línea |
Tratar la imagen como una sola línea de texto |
Palabra |
Tratar la imagen como una sola palabra |
Palabra encerrada en un círculo |
Tratar la imagen como una sola palabra en un círculo |
Caracteres |
Tratar la imagen como un solo carácter |
Texto disperso |
Buscar todo el texto posible sin un orden en particular. |
Texto disperso con OSD |
Texto disperso con OSD. |
Línea sin procesar |
Tratar la imagen como una sola línea de texto y evitar las soluciones alternativas que son específicas de Tesseract. |
Para obtener más información sobre los modos de segmentación, consulte la documentación oficial que brinda Tesseract en su sitio web.