OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
На Форуме произошел сбой системы. Возможна некорректная работа отдельных функций форума. По всем вопросам обращайтесь к Администратору.
The Forum has crashed. Some functions of the forum may not work correctly. For all questions, please contact Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
BookRestorer - обработка сканированных изображений (Прочитано 8470 раз)
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
BookRestorer - обработка сканированных изображений
04.05.2005 :: 11:33:11
 
Book Restorer - это прога для обработки сканированных изображений, в первую очередь текстов, для улучшения их качества. Наиболее ценные возможности:

Выравнивание страниц и строк
Выравнивание освещенности страниц
Разрезание разворотов и выделение страниц, обрезка полей
Автоматический и пакетный режимы обработки
Скрипты
и др.

Официальный сайт: _http://www.i2s-bookscanner.com/en/products_software.asp?niveau=1&origine=L&subj...

Запрос на скачивание программы - mailto:roman@farlep.net?Subject=restorerofbooks
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Предобработка изображений перед кодированием в djv
Ответ #1 - 04.05.2005 :: 11:38:25
 
Методика от Романа Ефимова - Предобработка изображений перед кодированием в djvu -

2. ПРЕДОБОРАБОТКА

Для предобработки сканов перед сжатием в djvu рекомендуется использовать специализированную программу "Реставратор книг", ссылку можно найти через groups.google.com по слову restorerofbooks

запустив book restorer, создайте новую книгу, импортируйте сканированные страницы.

примерный сценарий обработки книги (на примере одной страницы):

- выровняйте освещенность страницы по площади (меню lighting correction в tools)

- устраните наклон (меню deskew)

- сделайте обрезку (меню crop), тут можно обширно поиграться параметрами.

- сделайте фильтрацию (обработку) текста (меню filter), если хотите.

- устраните кривизну строк через меню Geometrical Correction, тут можно обширно поиграться параметрами.

- сделайте бинаризацию (конвертацию из серого в черно/белый), поигравшись с настройками в инструменте binarization, и пользуясь предпросмотром.

- устраните точечный мусор (меню despekle)

- в принципе, все.

Примечание. Некоторые инструменты не работают на черно-белых изображениях, поэтому бинаризацию делайте на последнем этапе, перед despekle. Если вдруг у вас исходные сканы оказались в черно-белом варианте, то перевести их в grayscale через меню Сolor Conversion.

Как только на примере нескольких страниц вы найдете оптимальный результат, запишите скрипт с выбранными вами операциями, и дайте ему имя. Сохраните книгу.

Через пункт меню Automation вызовите утилиту BKR Automate, укажите имя книги, созданный вами скрипт, диапазон страниц, и время начала выполнения (сразу или по расписанию).

Отработав, BKR Automate скажет "Completed" (или "Error", но не пугайтесь).

Заново открыв книгу в Ресторере, проконтролируйте качество обработки. Неудавшиеся страницы "откатите" в исходное состояние (есть спец. кнопка в окошке инструментов) и обработайте вручную. Сохраните книгу. Выведите (экспортируйте) обработанные страницы через меню Publish в многостраничный файл TIFF G4, режим binary, разрешение не меняйте!

Этап предобработки закончен.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Пример обработки сканов от Романа Ефимова
Ответ #2 - 04.05.2005 :: 11:43:24
 
Пример обработки сканов от Романа Ефимова -

давайте поговорим о методике кромсания, нет лучше реставрирования книг (кромсание - это когда пользуются "кромсатором" )

я сканирую Vuescan'oм в 400 дпи, в тонах серого, 8 бит, полностью разворот, при этом зона сканирования выбирается так, чтобы оставить только текст и поля страниц.

файл вывожу не как тифф, а как raw (при этом как ни странно, это тот же тифф такого же размера), при этом сканер после возврата каретки готов к следующему проходу. Переворачиваю страницу, жму кнопку на морде сканера. Далее цикл повторяется.

Изредка смотрю в окно вуескана, контролируя, чтобы поля оставались чистыми.

После завершения сканирования создаю в реставраторе книгу, импортирую сканы.

Для себя я выработал такой алгоритм реставрирования, пишу потом на ее основе скрипт:

1. Transformation на 90 гр. вправо (так как сканировал без поворота).

2. Deskew по всему тексту (on whole text)

3. Lighting correction (c sensivity = 5 по дефолту, как правило, но большие площади черного иногда идут белыми пятнами, смотрите по месту)

5. Crop-> Automatic -> Advanced -> One page для того, чтобы ровно обрезать поля слева и справа (верх и низ я вообще не обрабатываю, выставив поля в 777 мм).

Margins search -> Inner
Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5

Sensitivity ( % )
Horizontal : 80
Vertical : 80

6. Crop-> Automatic -> Advanced -> Two pages для того, чтобы ровно разрезать разворот по страницам (верх и низ я опять же не обрабатываю).

Margins search -> Inner
Page borders detection -> on
Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5

Sensitivity ( % )
Horizontal : 80
Vertical : 80

В большинстве случаев страницы определяются корректно и вырезаются из разворота ровно.

7. Далее Deskew по всему тексту (on whole text)

8. Далее перевод в черно-белое, играясь ползунками Details и Filtering и пользуясь Preview. Находится такое положение, когда еще не высыпается мусор, но текст уверенно виден (индексы формул, мелкие детали текста, нормальная толщина букв)

9. Далее удаление мелкого мусора, Despekle (5x5 обычно, больше не надо)

10 Далее снова перевод в серое, Color Conversion -> Gray level, для того, чтобы снова было можно как можно ровнее обрезать поля слева и справа, после того, как мусор удален.

11 Crop-> Simple для того, чтобы ровно обрезать поля слева и справа после удаления мусора (верх и низ я опять не обрабатываю).

Security margins (mm)
Top : 777 Left : 5
Bottom : 777 Right : 5

Sensitivity ( % )
Horizontal : 95
Vertical : 95

Прошу заметить - простая обрезка (Simple, не advanced)

12. Далее снова перевод в черно-белое, с теми же параметрами, что и в п.8

13. Последний этап - Geometrical Correction, c дефолтными параметрами (как ни странно, это практически оптимальный вариант)

После того, как вышеуказанный скрипт по пп. 1-13 опробован на типичных страницах, эти страницы "откатываются" в исходное состояние, книга сохраняется и вызывается BKR Automate, в котором указывается имя книги и скрипт, и запускается процесс пакетной обработки.

Через некоторое время программа завершит процесс, сказав Completed или Error.

Нажатием кнопки вызова реставратора в меню BKR Automate, запускаем реставратор.

Неудавшиеся страницы откатываются в исходное состояние, и реставрируются вручную отдельными инструментами или другим скриптом, который более "заточен" под нетипичные страницы. "Резинкой" подчищаются грязные места.

Потом надо привести страницы книги к единому пиксельному размеру и выставить фиксированные поля. Для этого в Styles -> Standart Page -> Properties -> Size -> Custom выставляется желаемая высота и ширина страницы.

Все, книга сохраняется, через меню Book -> Publish страницы экспортируются в многостраничный G4-compressed TIFF, Color range - > Binary

Этот файл потом легко импортируется в DjVU Editor пятой версии и кодируется в djvu

Внимание! Если вы используете именно Djvu Solo 3.1, то не экспортируйте книгу в многостраничный тифф! Уберите галку с этой опции, иначе Solo не увидит половину страниц.

Примечание. Полутоновые иллюстрации лучше всего перевести в черно-белый растр в отдельной программе, например, в Photoshop или XnView, и наложить на свое оригинальное место на своих страницах в реставраторе, уже после обработки книги. Через правокнопочное меню мышки add block, на нужной странице, вставьте блок (растрированную картинку). Выделив блок, щелкните правой клавишей мышки, в properties блока выставьте его стиль в none, и укажите его точное положение, ширину и высоту относительно левого верхнего угла страницы, чтобы он собой "лег" именно на то место, где и должен находится).
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать