Получить текст со страницы OCR

Считать текст с указанной страницы PDF-документа с использованием распознавания.

Имя файла

[Текст] Имя pdf файла, из которого будет извлекаться текст. Можно ввести полное имя файла включающее путь.

Номер страницы

[Число] Номер страницы, с которой будет извлекаться текст. Нумерация начинается с 1.

Язык текста

Выбор языка текста.

Модуль

Выбор модуля OCR, применяемого при распознавании изображения в текст.

Метод разделения

[Текст] Распознанный текст может быть автоматически разделен на участки, через запятую.

Метод разделения:

0 - Использовать указанный разделитель блоков;
1 - Автоматическое разделение (только для Yandex);
2 - Разделять по пустым интервалам длиннее указанного числа символов.

Разделитель блоков

[Число] Шестнадцатеричный код символа, который будет считаться разделителем блоков. Например, пробел имеет код 20, знак табуляции - код 9.

Используется при выборе метода разделения 0.

Количество символов

[Число] Длина пустого пространства в распознанном тексте, измеренная в количестве символов, которая используется при выборе метода разделения текста на блоки 2.

Увеличение

[Число] Значение, указывающее во сколько раз нужно увеличить изображение перед распознаванием.

В зависимости от используемого движка, увеличение изображения в 2 или 3 раза помогает увеличить качество распознавания.

Автоповорот страницы

При распознавании автоматически поворачивать страницу.

Обрабатывать аннотации

При выборе аннотации будут так же отрабатываться.

Результат

[Текст] Возвращается извлеченный со страницы текст.

Уровень обработки

Выбор уровня обработки ошибок. Возможные значения:

"Default" - по умолчанию;
"Ignore" - ошибки игнорируются;
"Handle" - ошибки обрабатываются.

Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.

Уровень сообщений

Выбор уровня сообщений, который будут выводить блоки при работе. Возможные значения:

"Default" - по умолчанию;
"Release" - вывод отключен;
"Debug" - вывод основной информации;
"Detailed" - вывод подробной информации.

Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.

Текст ошибки

[Текст] Возвращает подробную информацию об ошибке в случае некорректного выполнения работы блока.

PreviousПолучить текст и ссылки со страницы NextИзвлечь таблицу

Last updated 10 months ago