# Распознать по шаблону

Распознает заданный документ по шаблону. Этот блок работает с шаблонами, созданными с помощью кнопки "Извлечь по шаблону" на панели инструментов Sherpa Designer.&#x20;

Видео с примером использования блока:&#x20;

{% embed url="<http://sherparpa.ru/videos/ru/recognizetemplates.mp4>" %}

<table data-header-hidden><thead><tr><th width="255" valign="top"></th><th width="293" valign="top"></th></tr></thead><tbody><tr><td valign="top">Путь к файлу</td><td valign="top"><p>[Текст/Список] Путь к файлу. Поддерживаемые форматы файлов: </p><ul><li>png;</li><li>jpg;</li><li>pdf. </li></ul><p>Файл pdf может быть многостраничным. Можно указать список файлов изображений.</p></td></tr><tr><td valign="top">Путь к файлу шаблона</td><td valign="top"><p>[Текст/Список] Путь к файлу шаблона для распознавания. При указании списка файлов шаблонов для распознавания будут последовательно использоваться каждый файл пока распознавание не закончится успешно. </p><p></p><p>Если ни один из шаблонов не подойдет для документа, то будет сгенерировано исключение с ошибкой первого шаблона из списка. При использовании списка возможно увеличение скорости обработки нескольких шаблонов если параметры распознавания страницы у них одинаковые. </p><p></p><p>Этот блок работает с шаблонами, созданными с помощью кнопки "Извлечь по шаблону" на панели инструментов Sherpa Designer.</p></td></tr><tr><td valign="top">Номер страницы</td><td valign="top"><p>[Число/Текст] Номер страницы в многостраничном pdf файле.</p><p></p><p> Если есть якорь LastPage, то распознавание будет идти с заданного номера до страницы пока его не найдет. Если этого якоря нет, то распознается только заданная страница. </p><p></p><p>Можно указать строку с номерами страниц через запятую. Так же поддерживается указание интервала через тире. Например: "1, 4-7".</p></td></tr><tr><td valign="top">Заменить модуль</td><td valign="top"><p>[Текст] Позволяет при распознавании заменить указанный модуль в шаблоне на заданный в блоке. Возможные значения: </p><ul><li>TesseractOCR; </li><li>YandexVision; </li><li>MicrosoftOCR; </li><li>AbbyyOCR; </li><li>FineReader; </li><li>OCRSpace.</li></ul></td></tr><tr><td valign="top">Заменить масштаб</td><td valign="top">[Число] Задается новый масштаб при распознавании шаблоном. Если значение не задано, то используется масштаб из настроек шаблона, иначе задается указанный в этом свойстве масштаб.</td></tr><tr><td valign="top">Заменить язык распознавания</td><td valign="top">[Текст] Позволяет при распознавании заменить указанный язык в шаблоне на заданный в блоке.</td></tr><tr><td valign="top">Заменить размер ячейки по горизонтали</td><td valign="top"><p>[Число] Задается новый размер ячейки по горизонтали при распознавании шаблоном. </p><p></p><p>Если значение не задано, то используется размер ячейки из настроек шаблона, иначе задается указанный в этом свойстве размер.</p></td></tr><tr><td valign="top">Заменить размер ячейки по вертикали</td><td valign="top"><p>[Число] Задается новый размер ячейки по вертикали при распознавании шаблоном. </p><p></p><p>Если значение не задано, то используется размер ячейки из настроек шаблона, иначе задается указанный в этом свойстве размер.</p></td></tr><tr><td valign="top">Добавлять процент "уверенности" в таблицы</td><td valign="top">При включении параметра в каждую ячейку таблицы будет записывать не текст, а объект CellData. Из объекта можно будет извлечь текст с помощью свойства Text, а так же процент "уверенности" с помощью свойства Confidence.</td></tr><tr><td valign="top">Игнорировать ошибки якорей</td><td valign="top">Если якори (любые) не будут найдены, то ошибки генерироваться не будет. В этом случае область якоря считается нулевой.</td></tr><tr><td valign="top">Обрабатывать все страницы</td><td valign="top">При включении опции будет происходить обработка всех страниц в документе. Этот режим не делает проверку якоря LastPage.</td></tr><tr><td valign="top">Атрибуты</td><td valign="top">[Словарь] Словарь с атрибутами документа. Например: "Номер документа", "ИНН поставщика" и др. В атрибуты добавляется параметр CountPage, который соответствует количеству страниц, участвующих при распознавании шаблоном.</td></tr><tr><td valign="top">Таблицы</td><td valign="top">[Список Таблиц Данных] Возвращается список таблиц данных. Список формируется по данным из шаблона.</td></tr><tr><td valign="top">Области якорей</td><td valign="top">[Словарь] Словарь с найденными якорями. Ключом словаря служит ID якоря, а значением прямоугольник, обозначающий его положение на странице. При этом DPI страницы принимается как 300.</td></tr><tr><td valign="top">Данные атрибутов</td><td valign="top"><p>[Словарь] Словарь с найденными атрибутами. Ключом словаря служит имя атрибута, а значением объект с данными атрибутов. Объект содержит прямоугольник, обозначающий положение атрибута на странице. При этом DPI страницы принимается как 300. </p><p></p><p>Так же объект содержит значение Confidence, указывающее "Уверенность" в распознавании. Доступно для Tesseract и YandexVision и имеет значение от 0 до 100.</p></td></tr><tr><td valign="top">Индекс шаблона</td><td valign="top"><p>[Число] Индекс распознанного шаблона. Данное свойство актуально если в свойстве "Путь к файлу шаблона" задается список. </p><p></p><p>Нумерация начинается с нуля.</p></td></tr><tr><td valign="top">Уровень обработки</td><td valign="top"><p>Выбор уровня обработки ошибок. Возможные значения: </p><ul><li>"Default" - по умолчанию; </li><li>"Ignore" - ошибки игнорируются; </li><li>"Handle" - ошибки обрабатываются. </li></ul><p>Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.</p></td></tr><tr><td valign="top">Уровень сообщений</td><td valign="top"><p>Выбор уровня сообщений, который будут выводить блоки при работе. Возможные значения: </p><ul><li>"Default" - по умолчанию; </li><li>"Release" - вывод отключен; </li><li>"Debug" - вывод основной информации; </li><li>"Detailed" - вывод подробной информации. </li></ul><p>Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.</p></td></tr><tr><td valign="top">Текст ошибки</td><td valign="top">[Текст] Возвращает подробную информацию об ошибке в случае некорректного выполнения работы блока.</td></tr></tbody></table>
