Войти / Регистрация
Корзина

  • Ваша корзина пуста
Войти / Регистрация
Корзина

  • Ваша корзина пуста

Статья «СРАВНЕНИЕ ОЦИФРОВАННЫХ СТРАНИЦ ДЕЛОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ РАСПОЗНАВАНИЯ, "Сенсорные системы"»

Авторы:
  • Андреева Е. И.1
  • Манжиков Т. В.2
  • Славин О. А.3
стр. 35-41
Платно
1 Федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)", 2 Федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)"; ООО "Смарт Энджинс Сервис", 3 ООО “Смарт Энджинс Сервис”, 117312 Москва, просп. 60-летия Октября, д. 9; Институт системного анализа Федерального исследовательского центра “Информатика иуправление” Российской академии наук, 117312 Москва, просп. 60-летия Октября, д. 9; ООО "Смарт Энджинс Сервис"; Институт системного анализа Федерального исследовательского центра "Информатика и управление" Российской академии наук
Ключевые слова:
  • алгоритмы сравнения оцифрованных копий документов
  • автоматическое распознавание текста
  • расстояние Левенштейна
  • algorithms for comparing digitized copies of documents
  • automatic text recognition
  • Levenshtein distance
Аннотация:
В работе исследуется задача сравнения оцифрованных страниц деловых документов. Такая задача возникает при сравнении двух экземпляров документов, подписанных двумя сторонами с целью найти возможные модификации, внесенные одной стороной. Данная задача является практически значимой в банковской сфере при заключении договоров в бумажной форме. Предложен способ сравнения двух оцифрованных экземпляров на основе алгоритмов распознавания текста, состоящий в сравнении наборов слов, полученных в результате применения такого рода алгоритмов к эталонной и тестовой страницам. Описанные эксперименты были проведены с использованием OCR Tesseract. Достоинствами предложенного способа является универсальность алгоритма сравнения и высокая точность сравнения. В качестве главного недостатка предложенного алгоритма можно отметить - зависимость от гарнитуры и размера шрифта, использованного для печати.

Архивные статьи (2015 год и ранее) доступны для ознакомления бесплатно, для скачивания их необходимо приобрести. Для просмотра материалов необходимо зарегистрироваться и авторизоваться на сайте.

Чтобы приобрести доступ к материалу для юридического лица, пожалуйста, свяжитесь с администрацией портала с помощью формы обратной связи либо по электронному адресу libnauka@naukaran.com.  

Действия с материалами доступны только авторизованным пользователям.