Reconocimiento óptico de caracteres (OCR)

Blue Prism ofrece varias capacidades de OCR para texto en pantalla:

Reconocimiento nativo de caracteres

Uso de la automatización de superficies

Si Blue Prism Application Modeller no se puede utilizar directamente para identificar los elementos de la aplicación, se puede utilizar una técnica llamada automatización de superficies para capturar una imagen de la pantalla de la aplicación y asignar la ubicación de los elementos clave en ella. Tales aplicaciones se pueden modelar con regiones de pantalla, coincidencia de imágenes y reconocimiento de caracteres. Esta técnica es útil para aplicaciones de espionaje que no se ejecutan en la misma máquina que Blue Prism Enterprise y en las que otros modos de espionaje no están disponibles.

El reconocimiento nativo de caracteres basado en la coincidencia de fuentes se aprovecha mediante la acción Reconocer texto en una fase de lectura cuando se utiliza contra una región de Application Modeller capturada previamente. Esto extrae datos de texto de la región y los almacena en un elemento de datos. Los parámetros de entrada para la acción Reconocer texto son fuente, color de primer plano y color de fondo.

El reconocimiento nativo de caracteres requiere que se genere la fuente antes de utilizarla. Para obtener más detalles, consulte Fuentes.

Uso de OCR Plus

OCR Plus brinda un reconocimiento de caracteres mejorado con mayor precisión y solidez al realizar lo siguiente:

  • Identificar automáticamente los colores de primer plano y de fondo.

  • Distinguir entre caracteres aparentemente idénticos (como la letra O y el número 0) y permitir la desambiguación a través de patrones de expresión regular (RegEx).

  • Mejorar el algoritmo de coincidencia de fuente.

Esto se aprovecha a través de la acción Reconocer texto (OCR Plus) en una fase de lectura. Los parámetros de entrada son fuente y RegEx opcional. Si no se especifican parámetros de entrada, el sistema seguirá reconociendo la fuente e intentará hacer coincidir la palabra lo más posible. Sin embargo, si hay alguna ambigüedad, se utiliza una RegEx predeterminada que acepta uno de los siguientes patrones de palabras:

  • Mayúsculas y luego minúsculas
  • Mayúsculas o solo minúsculas
  • Solo números

Ejemplos de expresiones típicas de RegEx:

  • Número: “[0-9]+”
  • Palabra en mayúsculas y luego minúsculas: “[A-Z][a-z]*”
  • Mayúsculas y cadena numérica: “[0-9A-Z]+”

Tanto el reconocimiento nativo de caracteres como OCR Plus requieren que se genere la fuente antes de utilizarla. Las opciones correspondientes para esto están disponibles en el cuadro de diálogo Generador de fuentes, al que se accede desde la pantalla Sistema: Fuentes, y en el cuadro de diálogo Generar una fuente de Blue Prism, al que se accede desde la pantalla Editores de región de Blue Prism. Para obtener más detalles, consulte Fuentes.

Tesseract OCR

Para situaciones en las que no es adecuado usar el motor de reconocimiento nativo de caracteres para interactuar con texto en pantalla, por ejemplo, donde se aplica texto suavizado o para interactuar con copias escaneadas o restringidas de documentos electrónicos, Blue Prism puede usar un motor de Tesseract OCR integrado para reconocer texto mediante coincidencia de patrones y reconocimiento de texto complejo basado en el lenguaje.

Para maximizar la efectividad del reconocimiento de texto, se requiere un mínimo de 300 puntos por pulgada (dpi). Para las imágenes, como el texto en pantalla, donde el dpi es menor que esto, un parámetro de escala aumentará artificialmente el tamaño de la región capturada antes de pasarlo al motor. Generalmente, establecer el factor de escala en 4 o 5 proporcionará resultados exitosos.

El motor de Tesseract OCR se aprovecha a través de la acción Leer texto con OCR en una fase de lectura cuando se utiliza con una región de Application Modeller capturada anteriormente e incluye las opciones para leer texto, listas y cuadrículas. También es posible enviar las imágenes trabajadas previamente a una ubicación de diagnóstico específica para permitir la verificación de que la escala aplicada es suficiente para la región seleccionada.

Paquetes de idiomas

Los paquetes de idiomas para usar con Tesseract se pueden obtener en Internet. Blue Prism funciona con la versión 4.0.0 de Tesseract y es imperativo que se utilice con la versión principal correcta de los archivos de idioma. Actualmente, los archivos de idioma versión 4.0.0 se pueden descargar del sitio web de Tesseract.

Si desea agregar soporte para otro idioma, descargue los archivos correspondientes y cópielos en la carpeta Tesseract\tessdata (generalmente C:\Archivos de programa\Blue Prism Limited\Blue Prism Automate\Tesseract\tessdata).

Los archivos de idioma tienen como prefijo un código de idioma, por ejemplo., fra (francés), deu (alemán), jpn (japonés), chi-tra (chino tradicional). Una vez instalado en cada uno de los dispositivos requeridos, este código puede especificarse en el parámetro Idioma de la acción Leer texto con OCR dentro de una fase de lectura, para indicar al motor que use el paquete requerido.

Modo de segmentación de página

La acción Leer texto con OCR en una fase de lectura tiene un parámetro de texto opcional Modo de segmentación de página, lo que permite especificar un valor definido por Tesseract. Los valores que se pueden introducir en este parámetro se muestran a continuación, junto con una breve descripción de su acción.

Si no se introduce ningún valor para el Modo de segmentación de página, se utilizará el valor predeterminado Automático.

Parámetro

Descripción

OSD

Orientación y detección de secuencias de comandos (OSD) solamente

Automático con OSD

Segmentación automática de página con OSD.

Automático sin OCR

Segmentación automática de página, pero sin OSD ni OCR.

Automático

Segmentación de página completamente automática, pero sin OSD. (Predeterminado)

Columna

Asumir una sola columna de texto de tamaños variables

VerticalBlock

Asumir un solo bloque uniforme de texto alineado verticalmente

Bloque

Asumir un solo bloque uniforme de texto

Línea

Tratar la imagen como una sola línea de texto

Palabra

Tratar la imagen como una sola palabra

Palabra encerrada en un círculo

Tratar la imagen como una sola palabra en un círculo

Caracteres

Tratar la imagen como un solo carácter

Texto disperso

Buscar todo el texto posible sin un orden en particular.

Texto disperso con OSD

Texto disperso con OSD.

Línea sin procesar

Tratar la imagen como una sola línea de texto y evitar las soluciones alternativas que son específicas de Tesseract.

Para obtener más información sobre los modos de segmentación, consulte la documentación oficial que brinda Tesseract en su sitio web.