OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Тестирование FineReader 8.0 в журнале Hard’n’Soft (Прочитано 3638 раз)
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 425
Тестирование FineReader 8.0 в журнале Hard’n’Soft
20.12.2005 :: 19:47:08
 
Кирилл Иванов
Искусственный ЧИТАТЕЛЬ
Так сложилось, что для русскоязычных пользователей термин «OCR-системы» (Optical Character Recognition — оптическое распознавание символов) известен куда меньше, чем название одного из флагманских продуктов компании ABBYY — FineReader. He будем рассуждать, хорошо это или плохо, но факт остается фактом: данный продукт является монополистом на российском рынке и не собирается уступать свои позиции. Поэтому единственный серьезный конкурент для программы — это она сама. Точнее, ее предыдущие версии.

В недавно вышедшей FineReader 8.0 разработчики постарались реализовать ряд новых функций, направленных на повышение качества распознавания и учитывающих развитие современных технологий. Давайте посмотрим, насколько это им удалось.
Если вы уже работали с системами распознавания символов, то вам не нужно объяснять, для чего используется эта технология. Остальные же могут пребывать в легком недоумении: что это такое и как оно может пригодиться лично мне?
Если говорить коротко, то программы OCR приходят на помощь в тех случаях, когда у человека появляется потребность отказаться от использования бумажного документа в пользу электронного.
Кому-то нужно оцифровать содержимое присланного факса, другой готовит научную работу и не хочет вручную переписывать целые главы из книг, третий купил журнал с интересной статьей и собирается поделиться ею с другом, четвертый работает в организации, где принято архивировать все приходящие документы... Забегая вперед, скажем: нередко требуется отредактировать материал, сохраненный в формате PDF, исправить полученный бумажный документ или факс, опубликовать в Интернете информацию из прессы или книг и т.д.
Все это можно сделать с помощью программы FineReader 8.O.
Задумывая статью о FineReader 8.0, мы предполагали не ограничиваться описанием новых функций и пересказыванием заявлений разработчиков о том, что «качество распознавания повысилось на N процентов». Все это каждый может прочесть на официальном сайте продукта.
Взамен было решено сравнить восьмую и предыдущую, седьмую, версию программы (которая, кстати, была выпущена почти два года назад). Чтобы проверить, чего достигли разработчики за это время, мы воссоздали несколько стандартных ситуаций, в которых требуется распознать текст, и попытались проанализировать, как поведут себя текущая и предыдущая версии FineReader.
Далее, стоит отметить, что за два года интерфейс программы практически не изменился. Поэтому мы не будем заострять внимание на этом вопросе: у пользователя не возникнет никаких проблем с переходом на новую версию продукта, а новички с легкостью освоят управление программой за 5—10 мин.

Отсканированный документ

Для начала мы предложили программам довольно простое задание: распознать текст на одной из страниц журнала Hard'n'Soft. Журнал был отсканирован с весьма низким разрешением 150 dpi, чтобы для «испытуемых» задача не показалась слишком простой. FineReader 7.0 посоветовала искусственно повысить dpi до 300, но мы отказались от этого предложения. Как выяснилось, не зря: в качестве эксперимента мы воспользовались этой «медвежьей» услугой и получили гораздо худший результат.

----врезка---
ABBYY Screenshot Reader
В качестве бесплатного приложения к программе компания ABBYY выпустила небольшую утилиту под названием Screenshot Reader. Как несложно догадаться по названию, это программка, с помощью которой можно не только снять скриншот, но также распознать текст непосредственно с монитора; она может пригодиться и в том случае, если текст невозможно скопировать с помощью стандартной функции copy/paste. Такое случается, например, когда Web-страницы созданы с применением технологии Flash.
Принцип работы с программой прост: достаточно выделить область экрана, после чего текст (или таблица) будут автоматически распознаны и сохранены в файл. Результат распознавания также можно поместить в буфер обмена или передать во внешнее приложение.
Разработчики привели несколько примеров использования ABBYY Screenshot Reader. С ее помощью можно быстро собрать в один файл цитаты из нескольких открытых документов, получить содержание папки с файлами, сохранить — опять же в виде текста — историю писем в Outlook, извлечь текст из сообщений об ошибках, информации в строке статуса и т.д.
--------

Что касается качественно отсканированных документов, то для их обработки в программе появился режим ускоренного распознавания. Он же может использоваться при индексировании больших архивов документов.
Здесь и во всех последующих примерах изображение было очищено от «мусора» с помощью специальной функции FineReader.
Обе программы обработали изображение за одинаковое время. Первое, что бросилось в глаза при просмотре результата, — разные принципы разбиения изображения на блоки.
FineReader 7.0 оказалась более внимательной к деталям и выделила в отдельные блоки небольшие изображения и участки текста, набранные более мелким шрифтом (однако это не сильно помогло).
После этого мы занялись подсчетом числа явных ошибок и символов, возможно, распознанных с ошибкой. Что касается основного текста, то он был «прочитан» верно и той и другой программой. Впрочем, седьмая версия продукта оказалась менее уверенной в своих силах и почти в 3 раза чаще помечала верно распознанные символы как «возможно, распознанные с ошибкой». К тому же, как выяснилось, FineReader 7.0 склонна пропускать пробелы и знаки переноса. Их пришлось расставлять вручную.
Когда же мы обратили внимание на текст, набранный мелким шрифтом, то стало ясно, что восьмая версия программы показала себя на порядок лучше предшественницы. По данным разработчиков, точность распознавания «трудночитаемых» факсов и документов с низким разрешением возросла в среднем на 30%. В нашем случае число ошибок составило 6 и 25 в восьмой и седьмой версиях продукта соответственно.
Кстати, «восьмерка» не упустила случая продемонстрировать еще одно преимущество перед «семеркой»: обнаружив на странице ссылку на Web-сайт, она автоматически преобразовала ее в URL, щелкнув по которому можно открыть страницу в браузере. Если бы в бумажном документе содержался адрес e-mail, то он также был бы восстановлен в электронном виде.
Вывод: новая версия FineReader более качественно обрабатывает плохо-читаемый текст, а также символы, набранные мелким шрифтом. Если текст легко читается и отсканирован с высоким разрешением, то отличия между версиями окажутся незначительными.

Ксероксы и факсы

Современные ксероксы изготавливают весьма качественные копии документов, поэтому мы ожидали, что оба продукта справятся со своей задачей на достойном уровне. Однако и тут FineReader 8.0 обошла соперницу. Соотношение ошибочно распознанных символов осталось примерно тем же — 1:4.
«Восьмерка» даже переоценила свои силы и бросилась обрабатывать те фрагменты, которые распознаванию практически не поддаются: подпись автора письма и текст, набранный очень мелким шрифтом. В первом случае получилась полная бессмыслица, а во втором ошибка на ошибке (хотя примерно 50% символов и были угаданы верно).
Однако не стоит обвинять в этом программу: она честно попыталась выполнить свою задачу как можно лучше. «Семерка», оказавшись в той же ситуации, не только отказалась распознавать непонятные ей фрагменты, но даже сделала вид, что их вообще не существует.
В отличие от ксерокопий качество документов, присланных по факсу, нередко оставляет желать лучшего. Помня, что разработчики хвастались улучшенным распознаванием «трудночитаемых» факсов, мы подсунули программе действительно плохой факс, и надо сказать, что результаты не впечатлили. Конечно, заявленное повышение качества распознавания на 30% достигнуто, но почему-то это не приводит в восторг. Обнаружив несколько пропущенных ошибок, начинаешь подозревать программу в том, что она перепутала символы где-то еще, а следовательно, в ходе ручной проверки приходится самостоятельно вычитывать весь текст. Понятно, что времени на это требуется ненамного меньше, чем на набор того же документа вручную. Впрочем, если распознавать сразу несколько десятков документов, то определенная экономия времени все же будет.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 425
Re: Тестирование FineReader 8.0 в журнале Hard’n’S
Ответ #1 - 20.12.2005 :: 19:48:10
 
(продолжение)

Другие возможности

Помимо повышения качества распознавания создатели FineReader 8.0 приготовили нам еще несколько приятных сюрпризов, которые не только облегчат работу, но и помогут сэкономить немало времени. Самые простые из них — это планировщик заданий и редактор сценариев. С помощью этих двух инструментов можно автоматизировать процесс обработки схожих документов.
Представим обычную рабочую ситуацию: требуется перевести в электронный вид всю дневную корреспонденцию и отправить ее на определенный адрес. Раньше это приходилось выполнять вручную. Теперь для выполнения этой задачи нужно один раз объяснить программе, что ей нужно делать. Например: в обеденный перерыв (чтобы не мешать работе) FineReader запустит сценарий, который откроет все файлы, хранящиеся в определенной папке. После завершения их обработки и сохранения результата новые документы будут отправлены на заранее указанный электронный адрес. Таким образом, от вас потребуется лишь снабжать программу материалом для работы, а все остальное она сделает сама.
Еще одна полезная функция — обработка PDF-документов (которые, как известно, могут быть закрыты для редактирования). FineReader с легкостью откроет и распознает либо сразу все, либо только указанные страницы. После этого вы сможете отредактировать текст и сохранить его обратно в формат PDF.
Более того, в случае необходимости у вас будет возможность «закрыть» документ паролем, таким образом, он будет защищен от посторонних глаз. В настройках требуется указать один из трех уровней шифрования: 40-битный, 128-битный на основе стандарта RC4, 128-битный на основе стандарта AES (Advanced Encryption Standard).
Кстати, в процессе распознавания PDF FineReader 8.0 самостоятельно анализирует содержимое файла и определяет, какие участки требуют распознавания, а где можно извлечь текст из соответствующего текстового слоя. В некоторых случаях это позволяет существенно сократить время обработки документа, что подтвердилось на практике: предложенный программе PDF-документ распознавался весьма быстро и практически без ошибок. Единственное место, на котором она «срезалась», — обработка сложных математических формул и выражений. Увы, но математикам, физикам и астрономам придется перенабирать их вручную.
В программе присутствует еще пара полезных функций, которые, несомненно, пригодятся владельцам КПК. Одна из них — умение сохранять документы в формате LIT, используемом популярной «читалкой» Microsoft Reader, что упрощает процесс подготовки электронных книг, которые можно сразу загружать в карманный компьютер.
Новый FineReader также может подготавливать PDF-документы, автоматически переформатируя их под нужный размер экрана. Благодаря этому такие файлы будут удобно читаться на любом портативном устройстве.
Возросло и количество языков, поддерживаемых системой ABBYY FineReader. Теперь их 179, из которых 36 пользуются словарной поддержкой Microsoft Word. Если быть более точными, то в новой версии программы были доработаны словари для венгерского, датского, польского, итальянского, голландского (Нидерланды), норвежского (букмол и нюнорск), португальского (Португалия) и финского языков распознавания. Были добавлены 2 новых языка: уйгурский (кириллица) и уйгурский (латиница), а также словари для словенского и башкирского языков.
Если вы часто работаете со специализированными текстами, то рекомендуется подключить пользовательский словарь. Это позволит повысить степень распознавания текстов. Если таковым вы пока не располагаете, можете воспользоваться одним из словарей, доступных для бесплатной загрузки из Интернета.

=========
В журнале есть скриншоты примеров, если есть интерес, выложу.
На прилагаемом к журнале компакт-диске есть демо-версия программы (42 мб). Возможность сохранения в ней отключена.
Программу испытываю потихоньку.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Тестирование FineReader 8.0 в журнале Hard’n’S
Ответ #2 - 22.12.2005 :: 16:27:14
 
"Журнал был отсканирован с весьма низким разрешением 150 dpi, чтобы для «испытуемых» задача не показалась слишком простой. FineReader 7.0 посоветовала искусственно повысить dpi до 300, но мы отказались от этого предложения. Как выяснилось, не зря: в качестве эксперимента мы воспользовались этой «медвежьей» услугой и получили гораздо худший результат"

Ерунда какая-то. Либо слишком специфический и необычный текст. Поэтому всё их тестирование (не функций, а текста), вряд ли репрезентативно.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 425
Re: Тестирование FineReader 8.0 в журнале Hard’n’S
Ответ #3 - 22.12.2005 :: 19:39:46
 
Да, кстати, когда я отсканировал текст статьи (в ФР 6, 300 дпи), то не высмотрел там никаких ошибок, кроме как в заголовке. (Это про качество шрифта)

Искуственная замена 150-300 без ресэмплинга качество ухудшит - буквы проге покажуться сильно мелкими.

А так при проверке на нескольких страницах старой книжки дал +1 правильную букву (ФР 6 vs ФР 8). Зато в другом месте был заголовок раздела во врезке  - ФР6 это не понял, ФР8 распознал без ошибки.

У меня, похоже, выбора нет - правлю я на работе, на 150 пеньке.

ЗЫ. Так и не понял, почему не выделяются несловарные слова.
Наверх
« Последняя редакция: 23.12.2005 :: 00:51:58 от amyatishkin »  
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 836
Россия
Пол: male
Re: Тестирование FineReader 8.0 в журнале Hard’n’S
Ответ #4 - 22.12.2005 :: 21:06:43
 
Это все может быть скрытой рекламой. Надо самим "пощупать" его...
Наверх
 
WWW  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: Тестирование FineReader 8.0 в журнале Hard’n’S
Ответ #5 - 18.01.2006 :: 19:40:08
 
Кстати, обратите внимание (кто еще не знает)!

На форуме IXBT разработчики FR спрашивают у народа, что им надо улучшить или исправить в 9й версии. Думаю, что у многих здешних оцрщиков есть какие-то замечания и пожелания, так что пишите и советуйте.

До этого таким же образом обсуждалась 8я версия ФР и, надо признать, кое-какие замечания пользователей были учтены.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать