# Configurações

O template utiliza vários tipos de módulos para extrair dados dos arquivos de origem.

## **Módulo OCR**

**Módulo OCR** — módulo responsável pelo reconhecimento de texto.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-5f96cd0cd89b6165e670c3fc7bd2b0889edc95c4%2Fimage%20(191).png?alt=media" alt=""><figcaption></figcaption></figure>

A plataforma Sherpa RPA integra vários módulos OCR. Dois deles são fornecidos junto com o robô: Tesseract OCR e Microsoft OCR. Esses módulos podem operar offline, sem conexão à internet.

**Tesseract OCR** — é um motor de reconhecimento óptico de caracteres (OCR) de código aberto, sendo a biblioteca OCR mais popular e de maior qualidade. O OCR utiliza redes neurais para localizar e reconhecer texto em imagens.

**Yandex Vision e ABBYY OCR** — módulos online que utilizam as funcionalidades dos respectivos serviços em nuvem.

**Yandex Handwriting** — módulo que permite reconhecer texto manuscrito.

**Microsoft OCR** — módulo que permite reconhecer texto em imagens e documentos escaneados usando reconhecimento óptico de caracteres (OCR).

**OCR Space** — módulo que permite reconhecer fontes cirílicas em imagens no formato .jpg.

**ABBYY FineReader** — é um módulo comercial offline, cujo uso requer uma licença separada.

A plataforma Sherpa RPA permite configurar o funcionamento do script com reconhecimento de imagens e alternar entre esses módulos OCR a qualquer momento.

## **Escala OCR**

**Escala OCR** — parâmetro que permite melhorar a qualidade do reconhecimento, caso os documentos tenham baixa resolução.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-322882a0773ae9513a2bd61d2802c27a97017d59%2Fimage%20(192).png?alt=media" alt=""><figcaption></figcaption></figure>

Em caso de documentos escaneados de alta e média qualidade, recomenda-se deixar o valor da escala igual a "2".

## **Idioma de reconhecimento**

**Idioma de reconhecimento** — parâmetro que permite aumentar a precisão do reconhecimento do documento. Também é possível definir vários idiomas, usando vírgulas como separador.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-89fa8e83df9151e79a024c171e515ee57fcf9ecc%2Fimage%20(193).png?alt=media" alt=""><figcaption></figcaption></figure>

Ao selecionar a configuração “Idioma de reconhecimento”, uma lista suspensa é aberta, onde é possível marcar os idiomas desejados para reconhecimento com bandeiras.

## **Idioma de reconhecimento para âncoras**

**Idioma de reconhecimento para âncoras** — parâmetro que permite especificar um idioma de reconhecimento específico para âncoras. Também é possível definir vários idiomas, usando vírgulas como separador.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-393d1861be0f91855f85084c51ea6b7161100dae%2Fimage%20(194).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Extração direta de texto de PDF**

**Extração direta de texto de PDF** — parâmetro que permite gerenciar a extração direta de texto da página.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-6c57cc12a27225151f816d8b4f0d647527c913c1%2Fimage%20(195).png?alt=media" alt=""><figcaption></figcaption></figure>

Valores possíveis:

* No — desativado;
* Yes — usa apenas a extração direta de texto;
* Auto — modo automático (se não houver texto na página, será realizado o reconhecimento de texto com o módulo OCR especificado).

## **Tamanho da célula OCR horizontalmente**

**Tamanho da célula OCR horizontalmente** — parâmetro que permite especificar o divisor horizontal pelo qual as células das tabelas na página são definidas. O valor deve ser maior ou igual a 1.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-3cc7177049b0c276d5299bc3b64961926404ca8a%2Fimage%20(196).png?alt=media" alt=""><figcaption></figcaption></figure>

O tamanho da célula é definido como o tamanho da imagem dividido por esse valor.

O template utiliza dois parâmetros (horizontal e vertical) para uma definição mais precisa das tabelas.

Por padrão, o parâmetro é definido como: 40 (tamanho da célula OCR horizontalmente). Este valor é otimizado para o reconhecimento de documentos com tamanhos de células de tabela padrão (ou próximos ao padrão).

Recomenda-se manter esse valor inalterado e alterá-lo apenas em caso de reconhecimento incorreto (após verificação).

Se, com o parâmetro definido, a tabela não for reconhecida, o algoritmo do template aumentará automaticamente esse valor em 10 e tentará novamente.

## **Tamanho da célula OCR verticalmente**

**Tamanho da célula OCR verticalmente** — parâmetro que permite especificar o divisor vertical pelo qual as células das tabelas na página são definidas. O valor deve ser maior ou igual a 1.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-0e0a0d3c8cdda38aba730fdd84e4aa49960b301d%2Fimage%20(197).png?alt=media" alt=""><figcaption></figcaption></figure>

O tamanho da célula é definido como o tamanho da imagem dividido por esse valor.

O template utiliza dois parâmetros (horizontal e vertical) para uma definição mais precisa das tabelas.

Por padrão, o parâmetro é definido como: 20 (tamanho da célula OCR verticalmente). Este valor é otimizado para o reconhecimento de documentos com tamanhos de células de tabela padrão (ou próximos ao padrão).

Recomenda-se manter esse valor inalterado e alterá-lo apenas em caso de reconhecimento incorreto (após verificação).

Se, com o parâmetro definido, a tabela não for reconhecida, o algoritmo do template aumentará automaticamente esse valor em 10 e tentará novamente.

## **Filtro de linhas horizontais**

**Filtro de linhas horizontais** — parâmetro que indica a porcentagem abaixo da qual as linhas serão ignoradas. É definido como a relação da linha horizontal à largura da imagem. Este parâmetro é utilizado para atributos.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-eb671091e329aad58e1a028d9a4a16105a449481%2Fimage%20(198).png?alt=media" alt=""><figcaption></figcaption></figure>

Por padrão, o valor deste parâmetro é 5.

Frequentemente, documentos escaneados contêm linhas que não são limites de tabelas (diversos artefatos que precisam ser filtrados). Com o parâmetro definido, todos os artefatos desnecessários (linhas desenhadas à mão ou linhas que aparecem devido a uma digitalização de baixa qualidade) serão ignorados.

## **Rotação automática da página**

**Rotação automática da página** — parâmetro que permite girar automaticamente as páginas em um ângulo múltiplo de 90 graus (90̊, 180̊ e 270̽).

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-f22e4342a953f272650db58ed708d8eaf11484bd%2Fimage%20(199).png?alt=media" alt=""><figcaption></figcaption></figure>

A rotação automática da página não gira o documento em pequenos ângulos. Por padrão, o valor do parâmetro é “True”, recomenda-se mantê-lo inalterado.

## **Alinhamento automático da página**

**Alinhamento automático da página** — parâmetro que permite alinhar o conteúdo da página em caso de digitalização incorreta da folha. Ao contrário da “Rotação automática da página”, o “Alinhamento automático da página” gira o documento em pequenos ângulos.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-e4b39509982a8a1ca01804d580f4f92765f443ae%2Fimage%20(200).png?alt=media" alt=""><figcaption></figcaption></figure>

Durante o alinhamento automático da página, a linha OCR mais longa presente na página é reconhecida (geralmente é uma linha de tabela ou atributo) e o ângulo de sua inclinação em relação à horizontal é determinado. Após isso, o documento é girado para que a linha encontrada fique paralela à linha do horizonte.

Por padrão, o valor do parâmetro é “True”, recomenda-se mantê-lo inalterado.

Este parâmetro não é recomendado para uso se o documento escaneado estiver muito girado e o ângulo de rotação for superior a 40̊, pois nesse caso o template não conseguirá reconhecer para qual lado o documento deve ser alinhado e gerará um erro. Nessa situação, pode-se usar o parâmetro “Correção de ângulo”.

## **Critério de comprimento. Alinhamento automático da página**

**Critério de comprimento. Alinhamento automático da página** — parâmetro que permite limitar o comprimento da linha. Este parâmetro é utilizado como divisor para a largura da página. Se o comprimento da linha for menor que o valor calculado, ela será ignorada no algoritmo. Se a página estiver inicialmente muito girada, deve-se especificar um valor maior ou 0 para desativar o parâmetro.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-aa18a7f149dc35f7ae40d405c2d1852e8a370848%2Fimage%20(201).png?alt=media" alt=""><figcaption></figcaption></figure>

Por padrão, o valor é 10.

## **Processar anotações PDF**

**Processar anotações PDF** — parâmetro que permite ativar o processamento de anotações do arquivo PDF.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-14c2eba831008418300c63cf78b085618a05a660%2Fimage%20(63).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Processar todas as páginas**

**Processar todas as páginas** — parâmetro que permite ativar o processamento de todas as páginas no documento. Este modo não faz verificação do âncora LastPage.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-d7f3be05751c384af738eedbbf5dcc2947dcb9fc%2Fimage%20(64).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Unir blocos**

**Unir blocos** — parâmetro que permite unir blocos adjacentes em um único bloco.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-edcb78867653cc0322ee24cc195546d2a0b1f818%2Fimage%20(65).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Dividir blocos**

**Dividir blocos** — parâmetro que permite dividir blocos que contêm espaços em blocos sem espaços.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-fdae67963c8d06bc73c4d035b16f13cec8a1417e%2Fimage%20(66).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Ignorar erros de âncoras**

**Ignorar erros de âncoras** — parâmetro que permite desativar a geração de erros se âncoras (quaisquer) não forem encontradas. Nesse caso, a área da âncora é considerada nula.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-3e147f3e2a6c24438e0e7d5484ff63d75b9815f0%2Fimage%20(67).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Remover blocos que excedem o tamanho**

**Remover blocos que excedem o tamanho** — parâmetro que permite remover blocos que excedem o tamanho especificado. O campo de entrada está localizado ao lado do nome do parâmetro. Se um único número for especificado, os blocos cuja largura ou altura forem maiores que esse valor serão removidos. Além disso, é possível especificar valores separados por vírgula no formato: largura, altura.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-4c871e928ce54849b7947cc1eb037681ef9e8d92%2Fimage%20(68).png?alt=media" alt=""><figcaption></figcaption></figure>

Como unidade de medida, é necessário indicar o tamanho em pixels.

## **Porcentagem da imagem para reconhecimento**

**Porcentagem da imagem para reconhecimento** — parâmetro que permite especificar a porcentagem da imagem que será utilizada para reconhecimento pelo motor OCR. O campo de entrada está localizado ao lado do nome do parâmetro. O valor deve ser registrado como um único número ou dois números separados por um hífen.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-27e7eeabc1f9a396ae37fe36955bc4e0e8171f11%2Fimage%20(69).png?alt=media" alt=""><figcaption></figcaption></figure>

Por exemplo:

30 ou (0-30) — será reconhecido 0-30 % da imagem;\
30-70 — será reconhecida uma parte da imagem;\
70-100 — serão reconhecidos os 30 % inferiores da imagem.

## **Encontrar selos**

**Encontrar selos** — parâmetro que permite ativar a busca por selos no documento. Um atributo “Stamps” será adicionado, que retornará um array de objetos StampItem com as propriedades X, Y, Width, Height, PageIndex.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-8f5f4782ac14b216a277cbb1648ebc6acd50acf1%2Fimage%20(70).png?alt=media" alt=""><figcaption></figcaption></figure>

## **Ignorar marcas d'água**

Ignorar marcas d'água — ao ser ativado, não serão extraídos caracteres e texto das marcas d'água.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-384ce909209cece1c1aaa0daca36171cf7ff89ea%2F2025-09-26_23-13-18.png?alt=media" alt=""><figcaption></figcaption></figure>

## **Retornar tabelas como dicionário**

Retornar tabelas como dicionário — ao ser ativado, as tabelas serão retornadas como um dicionário. A chave do dicionário será o nome da tabela.

<figure><img src="https://1245874961-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fti2Raw08aYi0Vr2rkcD9%2Fuploads%2Fgit-blob-898954a6be099f58880a496bb1a8ea28591a7e67%2F2025-09-26_23-14-53.png?alt=media" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.sherparpa.ru/pt/sherpa-rpa/shablonizator/interfeis-shablonizatora/panel-nastroek-shablonizatora/nastroiki.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
