# Configuraciones

El plantillador utiliza varios tipos de módulos para extraer datos de los archivos fuente.

## **Módulo OCR**

**Módulo OCR** — módulo que se utilizará para el reconocimiento de texto.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-5f96cd0cd89b6165e670c3fc7bd2b0889edc95c4%2Fimage%20(191).png?alt=media" alt=""><figcaption></figcaption></figure>

En la plataforma Sherpa RPA están integrados varios módulos OCR. Dos de ellos se suministran junto con el robot: Tesseract OCR y Microsoft OCR. Estos módulos pueden funcionar sin conexión a Internet.

**Tesseract OCR** — es un motor de reconocimiento óptico de caracteres (OCR) de código abierto, y es la biblioteca OCR más popular y de mayor calidad. OCR utiliza redes neuronales para buscar y reconocer texto en imágenes.

**Yandex Vision y ABBYY OCR** — módulos en línea que utilizan las funciones de los respectivos servicios en la nube.

**Yandex Handwriting** — módulo que permite reconocer texto manuscrito.

**Microsoft OCR** — módulo que permite reconocer texto en imágenes y documentos escaneados mediante reconocimiento óptico de caracteres (OCR).

**OCR Space** — módulo que permite reconocer fuentes cirílicas en imágenes en formato .jpg.

**ABBYY FineReader** — es un módulo comercial fuera de línea, cuyo uso requiere una licencia separada.

La plataforma Sherpa RPA permite configurar el funcionamiento del script con el reconocimiento de imágenes y cambiar entre estos módulos OCR en cualquier momento.

## **Escala OCR**

**Escala OCR** — parámetro que permite mejorar la calidad del reconocimiento si los documentos tienen una mala resolución.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-322882a0773ae9513a2bd61d2802c27a97017d59%2Fimage%20(192).png?alt=media" alt=""><figcaption></figcaption></figure>

En caso de documentos escaneados de alta y media calidad, se recomienda dejar el valor de escala igual a "2".

## **Idioma de reconocimiento**

**Idioma de reconocimiento** — parámetro que permite aumentar la precisión del reconocimiento del documento. También se pueden especificar varios idiomas, utilizando comas como separador.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-89fa8e83df9151e79a024c171e515ee57fcf9ecc%2Fimage%20(193).png?alt=media" alt=""><figcaption></figcaption></figure>

Al seleccionar la configuración "Idioma de reconocimiento", se abre una lista desplegable donde se pueden marcar los idiomas necesarios para el reconocimiento mediante banderas.

## **Idioma de reconocimiento para anclajes**

**Idioma de reconocimiento para anclajes** — parámetro que permite especificar un idioma de reconocimiento específico para los anclajes. También se pueden especificar varios idiomas, utilizando comas como separador.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-393d1861be0f91855f85084c51ea6b7161100dae%2Fimage%20(194).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Extracción directa de texto de PDF**

**Extracción directa de texto de PDF** — parámetro que permite gestionar la extracción directa de texto de la página.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-6c57cc12a27225151f816d8b4f0d647527c913c1%2Fimage%20(195).png?alt=media" alt=""><figcaption></figcaption></figure>

Valores posibles:

* No — desactivado;
* Sí — se utiliza solo la extracción directa de texto;
* Automático — modo automático (si no hay texto en la página, se realizará el reconocimiento de texto con el módulo OCR especificado).

## **Tamaño de celda OCR horizontal**

**Tamaño de celda OCR horizontal** — parámetro que permite especificar el divisor horizontal, que determina las celdas de las tablas en la página. El valor debe ser mayor o igual a 1.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-3cc7177049b0c276d5299bc3b64961926404ca8a%2Fimage%20(196).png?alt=media" alt=""><figcaption></figcaption></figure>

El tamaño de la celda se determina como el tamaño de la imagen dividido por este valor.

El plantillador utiliza dos parámetros (horizontal y vertical) para una determinación más precisa de las tablas.

Por defecto, se establece el parámetro: 40 (tamaño de celda OCR horizontal). Este valor es óptimo para el reconocimiento de documentos con tamaños de celdas de tabla estándar (o cercanos a los estándar).

Se recomienda dejar este valor sin cambios y modificarlo solo en caso de un reconocimiento incorrecto (después de la verificación).

Si con el parámetro especificado la tabla no se reconoce, el algoritmo del plantillador aumentará automáticamente este valor en 10 y realizará un nuevo intento.

## **Tamaño de celda OCR vertical**

**Tamaño de celda OCR vertical** — parámetro que permite especificar el divisor vertical, que determina las celdas de las tablas en la página. El valor debe ser mayor o igual a 1.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-0e0a0d3c8cdda38aba730fdd84e4aa49960b301d%2Fimage%20(197).png?alt=media" alt=""><figcaption></figcaption></figure>

El tamaño de la celda se determina como el tamaño de la imagen dividido por este valor.

El plantillador utiliza dos parámetros (horizontal y vertical) para una determinación más precisa de las tablas.

Por defecto, se establece el parámetro: 20 (tamaño de celda OCR vertical). Este valor es óptimo para el reconocimiento de documentos con tamaños de celdas de tabla estándar (o cercanos a los estándar).

Se recomienda dejar este valor sin cambios y modificarlo solo en caso de un reconocimiento incorrecto (después de la verificación).

Si con el parámetro especificado la tabla no se reconoce, el algoritmo del plantillador aumentará automáticamente este valor en 10 y realizará un nuevo intento.

## **Filtro de líneas horizontales**

**Filtro de líneas horizontales** — parámetro que indica el porcentaje por debajo del cual las líneas serán ignoradas. Se determina como la relación de la línea horizontal a la anchura de la imagen. Este parámetro se utiliza para atributos.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-eb671091e329aad58e1a028d9a4a16105a449481%2Fimage%20(198).png?alt=media" alt=""><figcaption></figcaption></figure>

Por defecto, el valor de este parámetro es 5.

A menudo, en documentos escaneados hay líneas que no son límites de tablas (diversos artefactos que deben ser filtrados). Con el parámetro especificado, todos los artefactos innecesarios (líneas dibujadas a mano o líneas que aparecen debido a un escaneo de mala calidad) serán ignorados.

## **Rotación automática de página**

**Rotación automática de página** — parámetro que permite rotar automáticamente las páginas en un ángulo múltiplo de 90 grados (90°, 180° y 270°).

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-f22e4342a953f272650db58ed708d8eaf11484bd%2Fimage%20(199).png?alt=media" alt=""><figcaption></figcaption></figure>

La rotación automática de página no rota el documento en pequeños ángulos. Por defecto, el valor del parámetro es "True", se recomienda dejarlo sin cambios.

## **Alineación automática de página**

**Alineación automática de página** — parámetro que permite alinear el contenido de la página en caso de un escaneo incorrecto de la hoja. A diferencia de "Rotación automática de página", "Alineación automática de página" rota el documento en pequeños ángulos.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-e4b39509982a8a1ca01804d580f4f92765f443ae%2Fimage%20(200).png?alt=media" alt=""><figcaption></figcaption></figure>

Al alinear automáticamente la página, se reconoce la línea OCR más larga que hay en la página (generalmente es una línea de una tabla o atributo) y se determina el ángulo de su inclinación con respecto a la horizontal. Después de esto, se rota el documento para que la línea encontrada sea paralela a la línea del horizonte.

Por defecto, el valor del parámetro es "True", se recomienda dejarlo sin cambios.

Este parámetro no se recomienda utilizar en caso de que el documento escaneado esté muy girado y el ángulo de rotación sea superior a 40°, en este caso el plantillador no podrá reconocer hacia qué lado debe alinearse el documento y generará un error. En tal situación, se puede utilizar el parámetro "Corrección de ángulo".

## **Criterio de longitud. Alineación automática de página**

**Criterio de longitud. Alineación automática de página** — parámetro que permite limitar la longitud de la línea. Este parámetro se utiliza como divisor para el ancho de la página. Si la longitud de la línea es menor que el valor calculado, se omite en el algoritmo. Si la página está inicialmente muy girada, se debe especificar un valor mayor o 0 para desactivar el parámetro.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-aa18a7f149dc35f7ae40d405c2d1852e8a370848%2Fimage%20(201).png?alt=media" alt=""><figcaption></figcaption></figure>

Por defecto, el valor es 10.

## **Procesar anotaciones PDF**

**Procesar anotaciones PDF** — parámetro que permite habilitar el procesamiento de anotaciones del archivo PDF.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-14c2eba831008418300c63cf78b085618a05a660%2Fimage%20(63).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Procesar todas las páginas**

**Procesar todas las páginas** — parámetro que permite habilitar el procesamiento de todas las páginas en el documento. Este modo no realiza la verificación del ancla LastPage.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-d7f3be05751c384af738eedbbf5dcc2947dcb9fc%2Fimage%20(64).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Unir bloques**

**Unir bloques** — parámetro que permite unir bloques adyacentes en un solo bloque.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-edcb78867653cc0322ee24cc195546d2a0b1f818%2Fimage%20(65).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Dividir bloques**

**Dividir bloques** — parámetro que permite dividir bloques que contienen espacios en bloques sin espacios.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-fdae67963c8d06bc73c4d035b16f13cec8a1417e%2Fimage%20(66).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Ignorar errores de anclaje**

**Ignorar errores de anclaje** — parámetro que permite desactivar la generación de errores si los anclajes (cualquiera) no se encuentran. En este caso, el área del anclaje se considera nula.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-3e147f3e2a6c24438e0e7d5484ff63d75b9815f0%2Fimage%20(67).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Eliminar bloques que superen el tamaño**

**Eliminar bloques que superen el tamaño** — parámetro que permite eliminar bloques que superen el tamaño especificado. El campo de entrada se encuentra junto al nombre del parámetro. Si se especifica un solo número, se eliminarán los bloques cuya anchura o altura sea mayor que este valor. También se pueden especificar valores separados por comas en el formato: anchura, altura.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-4c871e928ce54849b7947cc1eb037681ef9e8d92%2Fimage%20(68).png?alt=media" alt=""><figcaption></figcaption></figure>

Como unidad de medida se debe indicar el tamaño en píxeles.

## **Porcentaje de imagen para reconocimiento**

**Porcentaje de imagen para reconocimiento** — parámetro que permite especificar el porcentaje de la imagen que se utilizará para el reconocimiento OCR por el motor. El campo de entrada se encuentra junto al nombre del parámetro. El valor debe escribirse como un solo número o dos números separados por un guion.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-27e7eeabc1f9a396ae37fe36955bc4e0e8171f11%2Fimage%20(69).png?alt=media" alt=""><figcaption></figcaption></figure>

Por ejemplo:

30 o (0-30) — se reconocerá el 0-30 % de la imagen;\
30-70 — se reconocerá parte de la imagen;\
70-100 — se reconocerá el 30 % inferior de la imagen.

## **Buscar sellos**

**Buscar sellos** — parámetro que permite habilitar la búsqueda de sellos en el documento. Se añadirá la clave “Stamps” a los atributos, que devolverá un array de objetos StampItem con las propiedades X, Y, Width, Height, PageIndex.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-8f5f4782ac14b216a277cbb1648ebc6acd50acf1%2Fimage%20(70).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Ignorar marcas de agua**

Ignorar marcas de agua — al habilitar esta opción, no se extraerán caracteres y texto de las marcas de agua.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-384ce909209cece1c1aaa0daca36171cf7ff89ea%2F2025-09-26_23-13-18.png?alt=media" alt=""><figcaption></figcaption></figure>

## **Devolver tablas como diccionario**

Devolver tablas como diccionario — al habilitar esta opción, las tablas se devolverán como un diccionario. La clave del diccionario será el nombre de la tabla.

<figure><img src="https://3940823687-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F8QfFNyYLPzoIrRZpZokA%2Fuploads%2Fgit-blob-898954a6be099f58880a496bb1a8ea28591a7e67%2F2025-09-26_23-14-53.png?alt=media" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.sherparpa.ru/es/sherpa-rpa/shablonizator/interfeis-shablonizatora/panel-nastroek-shablonizatora/nastroiki.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
