Распознавание текстов и изображений.
Процесс распознавания изображений является сложной многоэтапной процедурой. Многоэтапность (иерархичность) обусловлена тем, что различные задачи обработки на самом деле тесно связаны и качество решения одной из них влияет на выбор метода решения остальных. Так выбор метода распознавания зависит от конкретных условий предъявления входных изображений, в том числе характера фона, других изображений, помеховой обстановки и связан с выбором методов предобработки, сегментации, фильтрации.
Распознавание — чаще всего конечный этап обработки, лежащий в основе процессов интерпретации и понимания. Входными для распознавания являются изображения, выделенные в результате сегментации и, частично, отреставрированные. Они отличаются от эталонных геометрическими и яркостными искажениями, а также сохранившимися шумами.
На этом шаге происходит идентификация документа и выделение его объектов (полей, пометок, штрихкодов и прочего), удаляются помехи, которые мешают распознаванию (например, разграфка). Далее происходит распознавание полей документа. Затем проводится оценка достоверности результатов распознавания, после чего производится обобщенный лингвистический анализ поля.
После распознавания может следовать специальная обработка его результатов на основании априорной лингвистической и структурной информации о поле. После этого принимается решение о достоверности результатов распознавания. В системе реализована схема, признающая поле недостоверным в случае наличия в нем хотя бы одного недостоверного символа. После этого происходит сохранение результатов распознавания во внутренний формат системы и выполняется контроль логической непротиворечивости данных.
Кроме всего этот этап выполняет дополнительные функции: автоматическое определение угла поворота страницы и его автоматическая коррекция.
Процесс распознавания полностью автоматический, не требует наличия оператора, при этом возможно распараллеливание распознавания в рамках локальной сети.
При необходимости, после распознавания документ передается на верификацию. Если же необходимости в верификации нет, распознанные данные могут экспортироваться во внешние информационные системы и базы данных.
Верификация документа: исправление ошибок заполнения и распознавания, подтверждение результатов распознавания «сомнительных» полей, просмотр полей, не прошедших логический контроль, и принятие решения о дальнейшей судьбе таких документов. На этом этапе оператор производит визуальный контроль результатов распознавания и принимает решение о дальнейшем маршруте документа. Процесс реализован в двухоконном редакторе форм. В одном окне показано изображение бумажного документа, в другом — электронная форма, содержащая распознанные данные.
Процесс верификации документа идет по следующей схеме. Оператору предъявляется изображение и электронная форма с распознанными данными. При этом поля, не прошедшие контроль достоверности и логической непротиворечивости, подсвечены цветом для привлечения внимания оператора. Оператор, перемещая фокус между полями электронной формы, видит диагностику ошибок и либо исправляет ошибку, либо, если ошибку нельзя исправить, принимает решение передать документ на этап обработки «плохих» документов. При передвижении по полям модуль автоматически подсвечивает рамку поля на изображении.
Для повышения эффективности работы оператора предусмотрены два режима: проход только по полям, не прошедшим контроль, и режим пропуска незаполненных полей. Кроме этого, если прикреплен словарь, содержащий допустимые значения для поля, то имеется возможность указать в описании поля необходимость предъявления словаря оператору и разрешить оператору вставлять в поле значения из словаря.
После о
и т.д.................
Do'stlaringiz bilan baham: |