OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Красота сканов of Zmiy (Прочитано 11411 раз)
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Красота сканов of Zmiy
09.12.2005 :: 21:21:19
 
Не поделится ли многоуважаемый Zmiy секретом получения таких гладеньких кругленьких букв в сканах. Вот в 70м выпуске "В помощь радиолюбителю", например.
Я уж чего только не делаю, а все равно они у меня пушистенькие Печаль
Кстати, спасибо за него огромное: у меня он паяльником прожжен почти насквозь - для сканирования совершенно не пригоден, а тут - вот он, да еще такого качества.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Красота сканов of Zmiy
Ответ #1 - 13.12.2005 :: 14:47:17
 
"Красота" - ну это Вы перегнули...
Посмотрел Ваш скан ВПР No8 - по качеству букв примерно тоже самое, только у меня они пожирнее.
Это зависит от сканов и их постобработки - яркости, контрастности, бинаризация...

Я делаю так для кодирования в DJVU (и для ч/б и для полутон и для цв.) -

-1-
Сканирование 24цв 600 dpi в BMP -> IrfanView
Сканить в ФР не рекомендуют. Сканить сразу в битонал не рекомендуют. Удобное сканирование есть в RasterID (по кр.мере для моего UMAX Astra 4700) - при пакетном сканирование не скрывается окно твайна. Но после RasterID его формат BMP не понимает BookRestorer. Т.е. там лучше сканить в TIFF. В BookRestorere сканировать не могу - эта прога иногда подвисает минут на 5.

-2-
Поворот на 90 + деление на 2 стр. - скрипт -> BookRestorer
В RasterID есть поворот, но не нашел как делить на 2 стр. ScanKromsator - просто неудобная программа.

-3-
Выравнивание страниц deskew - есть авто, но я делаю полуавто -> RasterID
В BookRestorer нет полуавтомат. выравнивания, автомат не устраивает. ScanKromsator - просто неудобная программа.

-4-
Яркость, контрастность, бинаризация, устранение точечного мусора - скрипт -> PaintShopPro
Плюс для полутон/цв. рисунков - перевставляю их из исх.сканов в бинаризированные страницы (ес-но с преобр. в полутон/цв. всей стр.).
Тех же результатов для неbitonal в BookRestorer и RasterID не могу добиться... ScanKromsator - просто неудобная программа.

-5-
Обрезание crop - скрипт -> BookRestorer
Просто показалось удобнее др.прог плюс откат. ScanKromsator - просто неудобная программа.

-6-
Подчистка мусора и выравнивание по центру - вручную -> PaintShopPro
Любой редактор.

-7-
Кодирование bundled scanned 600 -> DJVU Solo 3.1
Bitonal кодирование никогда не использую, т.к. для ч/б кодер сам выберет режим bitonal, а для полутоновых и цв. режим scan - самое то.

Моя последовательность действий не оптимальна - используется не одна программа, т.к. добиться всего в одной не получается... Печаль
Те же ScanKromsator и BookRestorer чистят сканы в режиме bitonal, что мне не нравится.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #2 - 13.12.2005 :: 19:52:41
 
Огромное! Очень довольный
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #3 - 10.01.2006 :: 19:58:56
 
Zmiy писал(а) 13.12.2005 :: 14:47:17:
-4-
Яркость, контрастность, бинаризация, устранение точечного мусора - скрипт -> PaintShopPro
Плюс для полутон/цв. рисунков - перевставляю их из исх.сканов в бинаризированные страницы (ес-но с преобр. в полутон/цв. всей стр.).
Тех же результатов для неbitonal в BookRestorer и RasterID не могу добиться... ScanKromsator - просто неудобная программа.



А какой скрипт (для удаления мусора в частности), если не секрет? И версию PaintShop, если можно.
Спасибо.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Красота сканов of Zmiy
Ответ #4 - 12.01.2006 :: 00:35:36
 
sm.vlozhen...
Версии PaintShopPro 8(наверное), 9, 10.
Там два полных скрипта из пп.-4-. Один делает темнее, другой светлее - смотря какие получились исходные сканы.
Простое удаление мусора - и не только в ч/б режиме (как это делают ScanKromsator, BookRestorer и RasterId) - производится в PaintShopPro через меню Adjust - Add/Remove Noise - Despeckle (версия 10). Этот Despeckle и применяется в скриптах. В том же меню есть другие функции коррекции изображения.
Наверх
 

scripts.rar (Вложенный файл удален)

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #5 - 12.01.2006 :: 04:56:48
 
Спасибо огромное! Очень довольный
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #6 - 12.01.2006 :: 09:49:03
 
Спасибо также за
Zmiy писал(а) 13.12.2005 :: 14:47:17:
Посмотрел Ваш скан ВПР No8 - по качеству букв примерно тоже самое, только у меня они пожирнее.

Это здорово напоминает байку про корреспондента, пытавшегося сфотографировать плазму в ТоКаМаКе и
попросил: нельзя ли чуть поярче и подольше... Если б! - Давно б уж жили с управляемым термоядом.
В сканировании тем мастер и отличается от дилетанта, что у него и пожирнее и без пуха...


Еще одно замечание по теме (надеюсь, оно Вас не заденет)
Zmiy писал(а) 13.12.2005 :: 14:47:17:
-7-
Кодирование bundled scanned 600 -> DJVU Solo 3.1
Bitonal кодирование никогда не использую, т.к. для ч/б кодер сам выберет режим bitonal, а для полутоновых и цв. режим scan - самое то.


Это не совсем так. Часто он (Solo 3.1) при наличии хотя бы одной полутоновой страницы в режиме
scanned остальные, изначально бинарные, по своему усмотрению делает полутоном, причем безобразно
пятнистым (и в Ваших ВПР 71-72м тоже есть немного). Вот DEE так не делает, но у него проблемы с 600dpi...
Наверх
« Последняя редакция: 12.01.2006 :: 21:06:00 от Minor »  
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Красота сканов of Zmiy
Ответ #7 - 13.01.2006 :: 01:08:47
 
Цитата:
Часто он (Solo 3.1) при наличии хотя бы одной полутоновой страницы в режиме
scanned остальные, изначально бинарные, по своему усмотрению делает полутоном, причем безобразно
пятнистым (и в Ваших ВПР 71-72м тоже есть немного).

Не пятнисто, а размыто. И это не связано с "хотя бы одной полутоновой".
Я об этих размытиях знаю, они и в пред.выпусках были, но мне не хочется делать в bitonal, боюсь он попортит своей бинаризацией гладкость букв. Нужно экпериментировать...
В идеале надо бы делать избирательное конвертирование - полутоны и цв. в scanned, ч/б в bitonal, а потом объединять в bundled djvu - тогда будет более красиво. Но это не гарантия, что на тех полутоновых страницах не размоются ч/б участки...
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #8 - 13.01.2006 :: 02:15:47
 
Если все бинарные сложить в Solo и сохранить как bitonal, а потом добавить туда полутоновые и цвет и снова сохранить как scanned, то все бинарные ГАРАНТИРОВАНО остаются однослойными.
DEE всегда корректно сохраняет и те и другие, но на 600dpi у него заморочки (просто косина) с разрешением (отдельный вопрос) - я нашел выход делая как указано выше (уже более 30 книг сделал так в 600dpi).

По поводу ВПР я вопрос согласовал с Вадимом. Пересылку и Объяснительную несколькими минутами позже пошлю в ЛС. Виноват, конечно, но не очень.

Спасибо.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Красота сканов of Zmiy
Ответ #9 - 17.01.2006 :: 14:59:23
 
Цитата:
Считаю, что каждая страница электронной копии должна адекватно представлять оригинал

Вот этой фразой далее я буду придираться к твоим словам... Подмигивание

Цитата:
{ Цитата Вадима: А то что программа неверно отображает страницы, так это вина программиста, пусть свою кривую программу дорабатывает. }

Вот тут я согласен - в просмотрщиках джву должно быть много разных опций для удовлетворения разных взглядов на то, как должно быть. Но это будет только тогда, когда программист выйдет в народ...

Цитата:
Относительно нумерации страниц

Цитата:
Во всей радиотехнической литературе (DJVU в смысле) уж вроде стандарт: сохранение нумерации страниц, все ненумерованное и обложку - в конец.

Цитата:
Считаю, что каждая страница электронной копии должна адекватно представлять оригинал

Оригинал начинается с обложки! И "ненумерованные" в книге не в конце! Подмигивание
Пустые страницы из середины я не удаляю, т.к. потеряется логика при пересчете номера страницы, когда в просмотрщиках сделают такую фичу (это мечты Улыбка).
Я формирую джву таким образом, чтобы парные страницы (например схемы на разворотах) попали на экран при просмотре двойных страниц, когда в просмотрщиках сделают такую фичу (это мечты Улыбка).
Джву в виде разворотов никогда не буду делать - это нечитабельно (неуправляемо) на экране.
Есть книги, где нумерация идет с учетом обложки. Если делать как "уж вроде стандарт", то разные книги будут по разному выглядеть.

Цитата:
Это для распечатки на принтере нужно

Я стараюсь делать джву для удобного просмотра на экране компа.
А при печати можно указывать страницы через зпт...

Цитата:
И при распечатке с такими плавающими полями получается точная копия оригинала, а с ровными - как односторонний вордовский реферат студента первого курса.

Я стараюсь делать джву для удобного просмотра на экране компа. И поля я немалые делаю.
Плавающие поля на экране не смотрятся!
Те же доп.поля для сшивания можно указать в ФайнПринте.

Цитата:
{ Цитата Zmiy: Не пятнисто, а размыто. И это не связано с "хотя бы одной полутоновой". }
Связано.

Не связано! Подмигивание
(Прим. - бакграунд=background=фон, фореграунд=foreground=передний план)
Сжатие каждой страницы производится независимо от других страниц. Определятся что пойдет в бакграунд, а что в фореграунд для использования при сжатии более потерьного алгоритма и менее потерьного. В джву есть словарь, но он формируется для попавших в фореграунд(!!!) фрагментов разных страниц. Для бакграунда нету словаря. А это самое размытие получается для бакграунда, т.е. для того, что сжимается другими сильными и более потерьными алгоритмами.
И раз у меня все страницы сжимались в сканед, то и получалось иногда размытие...

Цитата:
{ Цитата Zmiy: Я об этих размытиях знаю, они и в пред.выпусках были, но мне не хочется делать в bitonal, боюсь он попортит своей бинаризацией гладкость букв. Нужно экпериментировать... }
Не попортит

Цитата:
Если все бинарные сложить в Solo и сохранить как bitonal, а потом добавить туда полутоновые и цвет и снова сохранить как scanned, то все бинарные ГАРАНТИРОВАНО остаются однослойными. DEE всегда корректно сохраняет и те и другие,

Поэкспериментировал на ВПР74... См. ниже последовательность операций. Вроде не портит... Улыбка
Но сразу встает вопрос: пусть есть книга 10 стр. битонал, 10 стр. сканед, 10 стр. битонал. У каждого куска сформируется при сжатии свой словарь фореграунда. Так вот вопрос - а при объединении 10b+10s+10b что станет с общим словарем? Я так думаю, что общего не будет... Это повлияет на размер файла.
Ну и еще вопрос остается: если на странице есть ч/б и полутон, то выбирать нужно сжатие сканед; так вот нельзя по-моему указать кодировщику какую чать страницы как обрабатывать. См. например ВПР74 и ВПР75 первую обложку, включи отображать бакграунд и увидишь, что туда попало...

Цитата:
На 300 dpi все это лучше, конечно, в DEE.

После увиденного на чужих сканах, что делается в 300 с искажением букв, меня не тянет делать что-то в 300. Только если большое, да и то с обязательным включением режима lossless.

Цитата:
Но там проблема: если все страницы 600dpi, он произвольно меняет разрешение некоторых (какие на 300, какие на какой-то нездоровый 1521 или около того dpi) с соответствующим изменением масштаба.

Эта проблема решается включением в профиль scan600 и bitonal600 опции --dpi=600. По умолчанию стоит --dpi=0, т.е. тот выберется тот dpi, что указан в графическом файле. А графические редакторы туда могут насовать что угодно...

Цитата:
Со скриптами твоими (еще раз спасибо - я думал там что стандартное) у меня тоже чего-то пока не идет, но это я только попробовал.

Забудь про те скрипты! Улыбка
Я почитал хелп на ПайнтШопПро(версия 10) и сделал лучший скрипт:
1. Бинаризация: Adjust - Brightness and Contrast - Threshold - 170 (подбирать экспериментально - зависит от исх. сканов)
2. Удаление мусора: Adjust - Add/Remove Noise - Median Filter - 5 (подбирать экспериментально - до сглаживания пустот в буквах типа "в")
3. Размытие: Adjust - Blur - Blur More (подбирать экспериментально - можно и просто Blur)
Таким скриптом и качество бинаризации значительно улучшилось и размер файла уменьшился. Главное правильно подобрать константы и не переусердствовать с удалением мусора. Насчет "3. Размытие" - это слегка размоет символы, таким образом сравняются похожие символы и попадут в словарь, а бинаризация в кодировщике сгладит размытие.
Ну а сжатие делал так:
1. Ч/б сжатие (кроме полутонов и цв.!): documenttodjvu.exe --profile=bitonal600 --dpi=600 --pages-per-dict=100 *.tif b.djvu
2. Цв./полутон. сжатие (обложки): documenttodjvu.exe --profile=scan600 --dpi=600 1.tif a.djvu
3. Объединение: djvubundle.exe a.djvu b.djvu c.djvu d.djvu
4. Уменьшение версии: djvuversion.exe --version=20 d.djvu
Опция --pages-per-dict=100 указывает словарь в 100, а не в 10 по умолчанию - меньше размер. Для больших файлов лучше большой словарь не указывать - во-первых файл будет долго открываться в просмотрщике, во-вторых при скачке фрагмента файла, его без словаря (который вроде в конце) не смогут предпосмотреть.
На этапе 2 делал сжатие по одному файлу на каждую стр. обложки - файлы a.djvu и c.djvu.
Уменьшение версии - чтобы старые просмотрщики смогли открыть djvu.
В итоге - ВПР75.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #10 - 18.01.2006 :: 20:13:47
 
Zmiy писал(а) 17.01.2006 :: 14:59:23:
Оригинал начинается с обложки! И "ненумерованные" в книге не в конце! Подмигивание
Пустые страницы из середины я не удаляю, т.к. потеряется логика при пересчете номера страницы,


В большинстве НТ-книг, которые мне приходилось видеть, иллюстрации - именно в конце, отдельным буклетом (ами).
Пустые внутри, конечно - они ж нумерованные. Как их можно удалять?! Я про пустые внутренние стороны обложек говорил.

Zmiy писал(а) 17.01.2006 :: 14:59:23:
Есть книги, где нумерация идет с учетом обложки.


Признаться, мне таких видеть не доводилось. Вот с ненумерованными страницами вначале - видел. У меня такая партитура "Евгения Онегина" (изданная в виде нормальной типографской книги в твердом переплете) - там только на 5й странице стоит единичка.

Zmiy писал(а) 17.01.2006 :: 14:59:23:
Те же доп.поля для сшивания можно указать в ФайнПринте.


Неа. Там только для подшивки и только слева. А нужно как раз наоборот. Обычно, внутренние поля вдвое меньше внешних, чтоб на развороте текстовые блоки были разграничены и ограничены равными промежутками


Zmiy писал(а) 17.01.2006 :: 14:59:23:
Не связано! Подмигивание
(Прим. - бакграунд=background=фон, фореграунд=foreground=передний план)
Сжатие каждой страницы производится независимо от других страниц. Определятся что пойдет в бакграунд, а что в фореграунд для использования при сжатии более потерьного алгоритма и менее потерьного. В джву есть словарь, но он формируется для попавших в фореграунд(!!!) фрагментов разных страниц. Для бакграунда нету словаря. А это самое размытие получается для бакграунда, т.е. для того, что сжимается другими сильными и более потерьными алгоритмами.
И раз у меня все страницы сжимались в сканед, то и получалось иногда размытие...


Да связано же!
Если не помещать в файл ни одной цветной страницы, и в bitonal, и в scanned НИКОГДА размытия не бывает.
Могу на пари.

Zmiy писал(а) 17.01.2006 :: 14:59:23:
Но сразу встает вопрос: пусть есть книга 10 стр. битонал, 10 стр. сканед, 10 стр. битонал. У каждого куска сформируется при сжатии свой словарь фореграунда. Так вот вопрос - а при объединении 10b+10s+10b что станет с общим словарем? Я так думаю, что общего не будет... Это повлияет на размер файла.
Ну и еще вопрос остается: если на странице есть ч/б и полутон, то выбирать нужно сжатие сканед; так вот нельзя по-моему указать кодировщику какую чать страницы как обрабатывать.


Соотношение (1:1:1) слишком теоретично. Реально в scanned нужно сжимать только обложку и цветные вкладки. А полутОна в теле типографской книги и вовсе нет - растровые картинки есть (клише) - так то ж тоже ч/б: черные квадратики на белом фоне. Мне непонятно, зачем клише делают полутоном. Разница при сжатии всего скопом в scanned и сначала в bitonal, а потом картинки (кстати, цветные и вперед и вовнутрь и в конец одновременно добавить и дожать в scanned - тоже не портит - ч/б словарь не трогает; итого: только два словаря и две операции сжатия в любом случае) добавить и в scanned, очень незначительная - единицы процентов. Так стоит того! Чтоб от размытия-то избавиться!

Zmiy писал(а) 17.01.2006 :: 14:59:23:
После увиденного на чужих сканах, что делается в 300 с искажением букв, меня не тянет делать что-то в 300. Только если большое, да и то с обязательным включением режима lossless.


Эт точно! Я для себя делаю только 600 dpi (а то и 1200 в предобработке с последующим загрублением до 600, когда нужно строго факсимиле; критерий: раздельное отображение левых угловых кавычек на самом мелком шрифте). Но приходится загруб##ть для выкладывания, если книги большие. В библиотеке установлен максимальный размер вложения 10М и если не лезет, нужно спрашивать Администратора, чтоб класть в несколько томов (нигде это вроде не написано, но что-то внутри меня подсказывает, что нужно), а я Вадима и так уж достал письмами. Он к размеру относится очень критично - его гневными письмами засыпают, что качается долго. Чего он размер не пишет в Библиотеке? Это ж важно.

Zmiy писал(а) 17.01.2006 :: 14:59:23:
Эта проблема решается включением в профиль scan600 и bitonal600 опции --dpi=600. По умолчанию стоит --dpi=0, т.е. тот выберется тот dpi, что указан в графическом файле. А графические редакторы туда могут насовать что угодно...


Да стоИт у меня! В смысле - 600. И в редакторах принудительно 600. Все файлы точно 600 dpi. Все равно, как только обложку добавляешь - 1524 dpi  и все. Вот без цвета - все нормально.

Zmiy писал(а) 17.01.2006 :: 14:59:23:
Забудь про те скрипты! Улыбка
Я почитал хелп на ПайнтШопПро(версия 10) и сделал лучший скрипт:
В итоге - ВПР75.


Спасибо Очень довольный
Красиво. Шрифт и линейки - прям "Абсолютно черное тело". Но размывки, на мой взгляд, все же многовато. В 70м буквы все же лучше, как мне кажется. Правда много еще зависит от оригинала - весь тираж 75-го, как мне помнится, был на первой бумаге (Бумага типографская №1), а на ней при плохих матрицах гораздо сильнее вылезают все огрехи печати - наплывы, пропечатка шпаций и кегля и т.д.
Наверх
« Последняя редакция: 18.01.2006 :: 20:54:56 от Minor »  
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Красота сканов of Zmiy
Ответ #11 - 19.01.2006 :: 08:38:00
 
Посмотрел еще раз твой 75й. Да, идеальный скан. Ура! Очень довольный Свершилось! Очень довольный Наконец-то появился эталон, с которым можно сравнивать
другие, без каких либо оговорок. Это - что я назваю: гиперфаксимиле ("Не как было, но как должно быть!" /Н.Михалков/).
Т.е. то, что виделось в оригиналмакете. Я сканы такого уровня (все равно, немного более пушистые, конечно) делаю лишь
в исключительных случаях с допотопной технологией и соответственно, очень медленно.
Поздравляю всех! Улыбка Можешь писать заявку в Севр на создание нового эталона.

Вот только странички не совпадают Подмигивание
Наверх
« Последняя редакция: 25.01.2006 :: 21:17:47 от Minor »  
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Красота сканов of Zmiy
Ответ #12 - 20.01.2006 :: 12:52:33
 
Цитата:
Соотношение (1:1:1) слишком теоретично.

Ну почему же... Даже те же ВПР - страницы с картинками полутоновыми случайно по книге - вот и получится те фокусы со словарем (обложка + Х страниц битоналом + 1 стр сканед + У стр. битоналом + ... + обложка).
Цитата:
Да стоИт у меня! В смысле - 600. И в редакторах принудительно 600. Все файлы точно 600 dpi. Все равно, как только обложку добавляешь - 1524 dpi  и все. Вот без цвета - все нормально.

Ну не знаю, почему у тебя не срабатывает. Я добился той ситауции что у тебя в ВПР75, а потом вставив --dpi=600 добился правильного результата...
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать