Распознать по шаблону (RecognizeTemplates)
Распознает заданный документ по шаблону. Этот блок работает с шаблонами, созданными с помощью кнопки "Извлечь по шаблону" на панели инструментов Sherpa Designer. Видео с примером использования блока: http://sherparpa.ru/videos/ru/recognizetemplates.mp4
Путь к файлу
[Текст/Список] Путь к файлу. Поддерживаемые форматы файлов:
png;
jpg;
pdf.
Файл pdf может быть многостраничным. Можно указать список файлов изображений.
Путь к файлу шаблона
[Текст/Список] Путь к файлу шаблона для распознавания. При указании списка файлов шаблонов для распознавания будут последовательно использоваться каждый файл пока распознавание не закончится успешно.
Если ни один из шаблонов не подойдет для документа, то будет сгенерировано исключение с ошибкой первого шаблона из списка. При использовании списка возможно увеличение скорости обработки нескольких шаблонов если параметры распознавания страницы у них одинаковые.
Этот блок работает с шаблонами, созданными с помощью кнопки "Извлечь по шаблону" на панели инструментов Sherpa Designer.
Номер страницы
[Число/Текст] Номер страницы в многостраничном pdf файле.
Если есть якорь LastPage, то распознавание будет идти с заданного номера до страницы пока его не найдет. Если этого якоря нет, то распознается только заданная страница.
Можно указать строку с номерами страниц через запятую. Так же поддерживается указание интервала через тире. Например: "1, 4-7".
Заменить модуль
[Текст] Позволяет при распознавании заменить указанный модуль в шаблоне на заданный в блоке. Возможные значения:
TesseractOCR;
YandexVision;
MicrosoftOCR;
AbbyyOCR;
FineReader;
OCRSpace.
Заменить масштаб
[Число] Задается новый масштаб при распознавании шаблоном. Если значение не задано, то используется масштаб из настроек шаблона, иначе задается указанный в этом свойстве масштаб.
Заменить язык распознавания
[Текст] Позволяет при распознавании заменить указанный язык в шаблоне на заданный в блоке.
Заменить размер ячейки по горизонтали
[Число] Задается новый размер ячейки по горизонтали при распознавании шаблоном.
Если значение не задано, то используется размер ячейки из настроек шаблона, иначе задается указанный в этом свойстве размер.
Заменить размер ячейки по вертикали
[Число] Задается новый размер ячейки по вертикали при распознавании шаблоном.
Если значение не задано, то используется размер ячейки из настроек шаблона, иначе задается указанный в этом свойстве размер.
Добавлять процент "уверенности" в таблицы
При включении параметра в каждую ячейку таблицы будет записывать не текст, а объект CellData. Из объекта можно будет извлечь текст с помощью свойства Text, а так же процент "уверенности" с помощью свойства Confidence.
Игнорировать ошибки якорей
Если якори (любые) не будут найдены, то ошибки генерироваться не будет. В этом случае область якоря считается нулевой.
Обрабатывать все страницы
При включении опции будет происходить обработка всех страниц в документе. Этот режим не делает проверку якоря LastPage.
Атрибуты
[Словарь] Словарь с атрибутами документа. Например: "Номер документа", "ИНН поставщика" и др. В атрибуты добавляется параметр CountPage, который соответствует количеству страниц, участвующих при распознавании шаблоном.
Таблицы
[Список Таблиц Данных] Возвращается список таблиц данных. Список формируется по данным из шаблона.
Области якорей
[Словарь] Словарь с найденными якорями. Ключом словаря служит ID якоря, а значением прямоугольник, обозначающий его положение на странице. При этом DPI страницы принимается как 300.
Данные атрибутов
[Словарь] Словарь с найденными атрибутами. Ключом словаря служит имя атрибута, а значением объект с данными атрибутов. Объект содержит прямоугольник, обозначающий положение атрибута на странице. При этом DPI страницы принимается как 300.
Так же объект содержит значение Confidence, указывающее "Уверенность" в распознавании. Доступно для Tesseract и YandexVision и имеет значение от 0 до 100.
Индекс шаблона
[Число] Индекс распознанного шаблона. Данное свойство актуально если в свойстве "Путь к файлу шаблона" задается список.
Нумерация начинается с нуля.
Уровень обработки
Выбор уровня обработки ошибок. Возможные значения:
"Default" - по умолчанию;
"Ignore" - ошибки игнорируются;
"Handle" - ошибки обрабатываются.
Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.
Уровень сообщений
Выбор уровня сообщений, который будут выводить блоки при работе. Возможные значения:
"Default" - по умолчанию;
"Release" - вывод отключен;
"Debug" - вывод основной информации;
"Detailed" - вывод подробной информации.
Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.
Текст ошибки
[Текст] Возвращает подробную информацию об ошибке в случае некорректного выполнения работы блока.
Last updated