amyatishkin
Активист
 
Вне Форума

Всем привет!
Сообщений: 426
|
Кирилл Иванов Искусственный ЧИТАТЕЛЬ Так сложилось, что для русскоязычных пользователей термин «OCR-системы» (Optical Character Recognition — оптическое распознавание символов) известен куда меньше, чем название одного из флагманских продуктов компании ABBYY — FineReader. He будем рассуждать, хорошо это или плохо, но факт остается фактом: данный продукт является монополистом на российском рынке и не собирается уступать свои позиции. Поэтому единственный серьезный конкурент для программы — это она сама. Точнее, ее предыдущие версии.
В недавно вышедшей FineReader 8.0 разработчики постарались реализовать ряд новых функций, направленных на повышение качества распознавания и учитывающих развитие современных технологий. Давайте посмотрим, насколько это им удалось. Если вы уже работали с системами распознавания символов, то вам не нужно объяснять, для чего используется эта технология. Остальные же могут пребывать в легком недоумении: что это такое и как оно может пригодиться лично мне? Если говорить коротко, то программы OCR приходят на помощь в тех случаях, когда у человека появляется потребность отказаться от использования бумажного документа в пользу электронного. Кому-то нужно оцифровать содержимое присланного факса, другой готовит научную работу и не хочет вручную переписывать целые главы из книг, третий купил журнал с интересной статьей и собирается поделиться ею с другом, четвертый работает в организации, где принято архивировать все приходящие документы... Забегая вперед, скажем: нередко требуется отредактировать материал, сохраненный в формате PDF, исправить полученный бумажный документ или факс, опубликовать в Интернете информацию из прессы или книг и т.д. Все это можно сделать с помощью программы FineReader 8.O. Задумывая статью о FineReader 8.0, мы предполагали не ограничиваться описанием новых функций и пересказыванием заявлений разработчиков о том, что «качество распознавания повысилось на N процентов». Все это каждый может прочесть на официальном сайте продукта. Взамен было решено сравнить восьмую и предыдущую, седьмую, версию программы (которая, кстати, была выпущена почти два года назад). Чтобы проверить, чего достигли разработчики за это время, мы воссоздали несколько стандартных ситуаций, в которых требуется распознать текст, и попытались проанализировать, как поведут себя текущая и предыдущая версии FineReader. Далее, стоит отметить, что за два года интерфейс программы практически не изменился. Поэтому мы не будем заострять внимание на этом вопросе: у пользователя не возникнет никаких проблем с переходом на новую версию продукта, а новички с легкостью освоят управление программой за 5—10 мин.
Отсканированный документ
Для начала мы предложили программам довольно простое задание: распознать текст на одной из страниц журнала Hard'n'Soft. Журнал был отсканирован с весьма низким разрешением 150 dpi, чтобы для «испытуемых» задача не показалась слишком простой. FineReader 7.0 посоветовала искусственно повысить dpi до 300, но мы отказались от этого предложения. Как выяснилось, не зря: в качестве эксперимента мы воспользовались этой «медвежьей» услугой и получили гораздо худший результат.
----врезка--- ABBYY Screenshot Reader В качестве бесплатного приложения к программе компания ABBYY выпустила небольшую утилиту под названием Screenshot Reader. Как несложно догадаться по названию, это программка, с помощью которой можно не только снять скриншот, но также распознать текст непосредственно с монитора; она может пригодиться и в том случае, если текст невозможно скопировать с помощью стандартной функции copy/paste. Такое случается, например, когда Web-страницы созданы с применением технологии Flash. Принцип работы с программой прост: достаточно выделить область экрана, после чего текст (или таблица) будут автоматически распознаны и сохранены в файл. Результат распознавания также можно поместить в буфер обмена или передать во внешнее приложение. Разработчики привели несколько примеров использования ABBYY Screenshot Reader. С ее помощью можно быстро собрать в один файл цитаты из нескольких открытых документов, получить содержание папки с файлами, сохранить — опять же в виде текста — историю писем в Outlook, извлечь текст из сообщений об ошибках, информации в строке статуса и т.д. --------
Что касается качественно отсканированных документов, то для их обработки в программе появился режим ускоренного распознавания. Он же может использоваться при индексировании больших архивов документов. Здесь и во всех последующих примерах изображение было очищено от «мусора» с помощью специальной функции FineReader. Обе программы обработали изображение за одинаковое время. Первое, что бросилось в глаза при просмотре результата, — разные принципы разбиения изображения на блоки. FineReader 7.0 оказалась более внимательной к деталям и выделила в отдельные блоки небольшие изображения и участки текста, набранные более мелким шрифтом (однако это не сильно помогло). После этого мы занялись подсчетом числа явных ошибок и символов, возможно, распознанных с ошибкой. Что касается основного текста, то он был «прочитан» верно и той и другой программой. Впрочем, седьмая версия продукта оказалась менее уверенной в своих силах и почти в 3 раза чаще помечала верно распознанные символы как «возможно, распознанные с ошибкой». К тому же, как выяснилось, FineReader 7.0 склонна пропускать пробелы и знаки переноса. Их пришлось расставлять вручную. Когда же мы обратили внимание на текст, набранный мелким шрифтом, то стало ясно, что восьмая версия программы показала себя на порядок лучше предшественницы. По данным разработчиков, точность распознавания «трудночитаемых» факсов и документов с низким разрешением возросла в среднем на 30%. В нашем случае число ошибок составило 6 и 25 в восьмой и седьмой версиях продукта соответственно. Кстати, «восьмерка» не упустила случая продемонстрировать еще одно преимущество перед «семеркой»: обнаружив на странице ссылку на Web-сайт, она автоматически преобразовала ее в URL, щелкнув по которому можно открыть страницу в браузере. Если бы в бумажном документе содержался адрес e-mail, то он также был бы восстановлен в электронном виде. Вывод: новая версия FineReader более качественно обрабатывает плохо-читаемый текст, а также символы, набранные мелким шрифтом. Если текст легко читается и отсканирован с высоким разрешением, то отличия между версиями окажутся незначительными.
Ксероксы и факсы
Современные ксероксы изготавливают весьма качественные копии документов, поэтому мы ожидали, что оба продукта справятся со своей задачей на достойном уровне. Однако и тут FineReader 8.0 обошла соперницу. Соотношение ошибочно распознанных символов осталось примерно тем же — 1:4. «Восьмерка» даже переоценила свои силы и бросилась обрабатывать те фрагменты, которые распознаванию практически не поддаются: подпись автора письма и текст, набранный очень мелким шрифтом. В первом случае получилась полная бессмыслица, а во втором ошибка на ошибке (хотя примерно 50% символов и были угаданы верно). Однако не стоит обвинять в этом программу: она честно попыталась выполнить свою задачу как можно лучше. «Семерка», оказавшись в той же ситуации, не только отказалась распознавать непонятные ей фрагменты, но даже сделала вид, что их вообще не существует. В отличие от ксерокопий качество документов, присланных по факсу, нередко оставляет желать лучшего. Помня, что разработчики хвастались улучшенным распознаванием «трудночитаемых» факсов, мы подсунули программе действительно плохой факс, и надо сказать, что результаты не впечатлили. Конечно, заявленное повышение качества распознавания на 30% достигнуто, но почему-то это не приводит в восторг. Обнаружив несколько пропущенных ошибок, начинаешь подозревать программу в том, что она перепутала символы где-то еще, а следовательно, в ходе ручной проверки приходится самостоятельно вычитывать весь текст. Понятно, что времени на это требуется ненамного меньше, чем на набор того же документа вручную. Впрочем, если распознавать сразу несколько десятков документов, то определенная экономия времени все же будет.
|