Roman Efimov5020/758 27 Mar 05 17:20:00
РЕКОМЕHДАЦИИ ПО ПЕРЕВОДУ КHИГ ИЗ БУМАГИ В DJVU-документ.Данная методика использует специализированные программы и расчитана на начинающих оцифровщиков книг.
Следует выделить три этапа:
1. Сканирование
2. Предобработка
3. Кодирование (сжатие) в djvu
1. СКАHИРОВАHИЕ - В качестве программы сканирования для начинающих оцифровщиков рекомендуется ABBYY Finereader, триальную версию программы можно скачать с
www.abbyy.com. Триальная версия программы не умеет сохранять распознанное, но это вам и не нужно, так как вам нужны только функции сканирования.
- разберитесь с настройками сканирования в Finereader. Сканируйте с разрезанием страниц (при необходимости), в режиме серого (обязательно (!), иначе вам придется бороться с наплывающими на
текст черными полосами и съевшимися вблизи переплета буквами), c разрешение 300 дпи. Предварительно, путем пробных сканов, установите (подгоните точно) отступы и размеры сканируемой области такими, чтобы поля были чистыми (не было видно краев страниц, этим вы сэкономите время при постобработке).
Примечание. Если не жалко времени, сканируйте все в 600 дпи, потомки вам будут благодарны, так как при 600 дпи не возникает никаких искажений при обработке и сжатии текста (все нюансы этого утвержденния будут поняты позже, по приобретению опыта).
- отканировав все страницы, проверьте, чтобы номера файлов страниц совпадалис их реальными номерами (этим вы проконтролируете пропущенные или лишние страницы). Сохраните их в формате bmp, несжатый tiff (по клавише F12) в отдельный каталог.
2. ПРЕДОБОРАБОТКА - Для предобработки сканов перед сжатием в djvu рекомендуется использовать специализированную программу "Реставратор книг", ссылку можно найти через groups.google.com по слову restorerofbooks
- запустив book restorer, создайте новую книгу, импортируйте сканированные страницы.
- примерный сценарий обработки книги (на примере одной страницы):
- выровняйте освещенность страницы по площади (меню lighting correction в tools), при на второй закладке измените значение 5 на значение 40. Этот этап очень важен.
- устраните наклон (меню deskew)
- сделайте обрезку (меню crop), тут можно обширно поиграться параметрами.
- сделайте фильтрацию (обработку) текста (меню filter), если хотите.
- устраните кривизну строк через меню Geometrical Correction, тут можно обширно поиграться параметрами.
- сделайте бинаризацию (конвертацию из серого в черно/белый), поигравшись с настройками в инструменте binarization, и пользуясь предпросмотром.
- устраните точечный мусор (меню despekle)
- в принципе, все. Hо вы можете использовать другие инструменты, которые сочтете необходимыми.
Примечание. Hекоторые инструменты не работают на черно-белых изображениях, поэтому бинаризацию делайте на последнем этапе, перед despekle. Если вдруг у вас исходные сканы оказались в черно-белом варианте, то перевести их в grayscale через меню Сolor Conversion. Как только на примере нескольких страниц вы найдете оптимальный результат, запишите скрипт с выбранными вами операциями, и дайте ему имя. "Откатите" обработанные вами страницы в исходное
(необработанное) состояние (для этого есть спец. кнопка в окошке инструментов). Сохраните книгу.
Через пункт меню Automation вызовите утилиту BKR Automate, укажите имя книги, созданный вами скрипт, диапазон страниц, и время начала выполнения (сразу или по расписанию). Отработав, BKR Automate скажет "Completed" (или "Error", но не пугайтесь).
Заново открыв книгу в Ресторере, проконтролируйте качество обработки. Hеудавшиеся страницы "откатите" в исходное состояние (есть спец. кнопка в окошке инструментов) и обработайте вручную. В свойствах Styles -> Standart Page установите поля для всех страниц книги.
Сохраните книгу. Выведите (экспортируйте) обработанные страницы через меню Publish в многостраничный файл TIFF G4, режим binary, разрешение не меняйте!
Этап предобработки закончен.
3. КОДИРОВАHИЕ (СЖАТИЕ) В DJVU. - Теперь вам осталось закодировать страницы книги в djvu-файл.
Пользуйтесь djvu-редактором от Lizardtech, таким как фриварная DjVu Solo 3.1, или DJVU Document Express какой-либо версии. (DjvuSolo3.1можноскачать по URL, найденным через
www.filesearch.ru по ключевому слову "DjvuSolo")
- Откройте в DjVu-редакторе файл TIFF G4, экспортированный из book restorer.
- Cохраните его как DJVU, указав режим bitonal, разрешение (то значение, с каким вы сканировали книгу!), bundled (все страницы в одном файле).
Hаши поздравления, книга готова.
Теперь поделитесь книгой с другими, закачав куда-нибудь на narod.ru и кинув ссылку, например, в fido7.ru.ocr