OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Вопросы по обработке скана на примере (Прочитано 7973 раз)
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Вопросы по обработке скана на примере
27.08.2013 :: 13:35:26
 
Здравствуйте. Прошу вашей помощи по обработке скана.
Есть серый скан, отсканирован в 600 dpi, TIFF, частично обработан в GIMP (файл 0001.tiff).

Мои вопросы:

Чем лучше воспользоваться, чтобы почистить грязь, не попортив текст?
Как на этапах очистки, бинаризации и кодирования добиться того, чтобы максимально точно сохранить толщину символов, особенно в формулах (например толщину и длину засечек в символах l и k)?
Может быть 600 dpi для такого мелкого текста недостаточно?
Как сглаживать символы без утолщения, чтобы пикселы по обе стороны от воображаемой кривой (границы симола) были на равном и небольшом расстоянии, т.е. при увеличении символ не выглядел "рваным"?

Обработка в Scan Tailor не дает желаемого результата, символы утолщаются.
Со Скан-Кромсатором пока не могу справиться, буду благодарен за подсказку, какие опции выставить.
Фотошоп пока не освоил, но готов.

Время и трудозатраты не играют роли.
Вообще буду благодарен за любые подсказки.

0001.tiff (600 dpi, TIFF, серый, частично обработан в GIMP)
http://rusfolder.com/37774379
Прилагаю также оригинал original.tiff (оригинальный скан, 600 dpi, TIFF, серый)
http://rusfolder.com/37774380
Наверх
« Последняя редакция: 27.08.2013 :: 13:59:29 от maddy »  
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1686
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #1 - 27.08.2013 :: 22:48:45
 
как вам такой вариант?
http://rusfolder.ru/37782258







Наверх
 
 
IP записан
 
joker2156
Постоялец
**
Вне Форума



Сообщений: 174
Re: Вопросы по обработке скана на примере
Ответ #2 - 27.08.2013 :: 23:37:51
 
Если кто-то сможет существенно улучшить - сам с удовольствием почитаю, а так, по мне, нормальный у вас вариант после gimp, на 0001.tiff запустите gaussian blur на 0.6 пикселя, чтобы сгладить границы, и уровнями добейтресь нужного баланса потерь-жирности.
В шопе моих умений хватает на примерно такой-же. 
Djvu: rusfolder

Наверх
 
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #3 - 28.08.2013 :: 06:05:12
 
mor
Это идеальный вариант. Как вы это сделали?

joker2156
Отлично! Замечен один недостаток - кое-где пропала точка над символом "кси". Ваш совет взял на заметку, буду пробовать.

mor, joker2156! Очень большая моя вам благодарность! Ваши примеры показали, что все возможно, а то уже руки стали опускаться.

Теперь у меня такой вопрос:

Каково ваше субъективное мнение - какой из вариантов (предоставленных mor и joker2156) более предпочтителен для конечной djvu-книги:
1. для чтения с монитора;
2. для распечатки на принтере?

Сравнивая с оригиналом, видно, что:
В варианте от mor контуры символов максимально близки к оригиналу, та же толщина, отличная четкость; при этом на экране, имхо, смотрятся более тонкими, чем в оригинале на бумаге (парадокс?).
В варианте от joker2156 символы чуть утолщены, при этом сохранена нужная четкость, все детали на месте, ничего не размтыто; при этом, имхо, читать с монитора более комфортно.
В целом оба варианта очень точно передают начертание шрифта.

Нужно ли стремиться к максимально точному сохранению засечек и толщины символов?
Насколько комфортно чтение с монитора, когда символы тонкие? Может быть глаз, при чтении на бумаге, воспринимает их не такими тонкими?
Как это выглядит при распечатке, только завтра смогу посмотреть, на работе.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #4 - 28.08.2013 :: 07:00:10
 
Сделано ради шутки - http://rghost.ru/48418532
Наверх
 
 
IP записан
 
joker2156
Постоялец
**
Вне Форума



Сообщений: 174
Re: Вопросы по обработке скана на примере
Ответ #5 - 28.08.2013 :: 08:14:07
 
maddy писал(а) 28.08.2013 :: 06:05:12:
Замечен один недостаток - кое-где пропала точка над символом "кси". Ваш совет взял на заметку, буду пробовать.

Это я, вероятно, по ошибке почистил. Особенно аккуратно не старался, просто как вариант. Вариант mor замечателен не тем, что тоньше - тоньше сделать не проблема, тут каждый сам себе суслик, а тем, что у него при этом не протерлись дырки в маленькой "a" чуть ниже  (3.16) в строке "Механическая мощность Wm.."
Размывкой по Гауссу сильно не увлекайтесь - при значениях больше полпикселя (на 600dpi) плывут углы у шрифта.
Еще вариант, который может пригодится, если позволяют время и ресурсы - обработку вести увеличенного файла (например 1200dpi) и только в самом конце возвращать к 600, при этом попытаться подбирать наиболее приятный глазу метод интерполирования Улыбка
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3844
Екатеринбург
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #6 - 28.08.2013 :: 11:36:23
 
maddy писал(а) 28.08.2013 :: 06:05:12:
Нужно ли стремиться к максимально точному сохранению засечек и толщины символов?

Здесь так принято.

maddy писал(а) 28.08.2013 :: 06:05:12:
Может быть глаз, при чтении на бумаге, воспринимает их не такими тонкими?

Да, на бумаге они выглядят потолще.

maddy писал(а) 28.08.2013 :: 06:05:12:
Насколько комфортно чтение с монитора, когда символы тонкие?

Объективной шкалы сравнения эмоций вроде бы не придумано Подмигивание "О вкусах не спорят".
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1686
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #7 - 28.08.2013 :: 16:45:31
 
maddy
Вид на экране еще будет зависеть от программы просмотра:
...
1. WinDjView (djvu)
2. Irfan (tif)
3. Xnview (tif)
-----------------------

Для обработки я пользуюсь методикой от Arcand - http://www.djvu-soft.narod.ru/scan/corel_scan.htm
ссылки на последние версии скриптов и дополнительное описание  - http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=820#12

-----------------
отличия от основного описания в данном случае:

1. Этап "Предварительная обработка"
Добавление очистки  фона
+ Вместо автокоррекции использовал ручную настройку уровней - "Настройка - Увеличение контрастности"

2. На этапе основной обработки:
- повышение разрешения до 1200
- опять замена автокоррекции

3. Последний этап чистки сканов провожу не Кореле, а в кромсаторе

-----
Вот макрос который получается в Кореле:
http://rusfolder.ru/37792761

Можете попробовать применить его к оригинальным сканам сами:
Файл - Пакетная обработка

Для страховки выберите внизу - "Сохранить как другой тип", и укажите другую папку.

Очистка фона не будет работать пока не прогнать ее один раз вручную:
Эффекты - ScanTools - Background Cleaner
------

В конце проводим despecle с помощью кромсатора.
Перед обработкой - корректируем значение dpi -  обычно псоле корела сбивается Service - Correct DPI (в нашем случае выбираем 1200)
Настройки для кромсатора:
...
======================

PS Сначала такая обработка может показать довольно сложной. Но скрипты каждый раз  делать будет не нужно. Я обычно просто правлю  в текстовом редакторе имеющийся вариант.  Меняя параметры каждого этапа обработки.
Наверх
 
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #8 - 29.08.2013 :: 07:28:46
 
Большое спасибо за разъяснения, советы и терпение!
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 355
Re: Вопросы по обработке скана на примере
Ответ #9 - 04.09.2013 :: 08:45:33
 
Вариант в новых Шопах от ЦС5 и выше, версиях ниже нет фильтра Surface Blur.

3 действия:
Surface Blur: Radius 47; Threshold: 36
Smart Sharpen: Amount 92%; Radius 22 pixels;
Surface Blur: Radius 47; Threshold: 21

...

Конечно же всё регулируется.  Улыбка

Присмотритесь к Surface Blur, коли разберётесь как работает и съэмулируете, то подобные вопросы будут решаться "на раз".
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #10 - 22.04.2014 :: 17:26:33
 
Здравствуйте. Посмотрите, пожалуйста эту книгу, можно ли как-то уменьшить размер?
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1357646717/544#544
Наверх
 
 
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 239
Алма-Ата
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #11 - 22.04.2014 :: 17:57:25
 
@
maddy
Смотрится хорошо, а размер наверно можно уменьшить.

Не включен словарь символов. При этом очень хорошо обработан текст, можно ожидать для чисто текстовых страниц размер в пределах 10-15кбайт. А у вас 30-50кбайт.
Иллюстрации чисто черно-белые не надо делать в фоне, их тоже лучше бинаризировать.
Полутоновые иллюстрации, на мой вкус, с излишне высоким разрешением при не подавленном полиграфическом растре, тоже увеличивает размер файла.
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #12 - 22.04.2014 :: 18:09:00
 
AlVaKo, спасибо.

AlVaKo писал(а) 22.04.2014 :: 17:57:25:
Не включен словарь символов.
А как это сделать?

По-поводу черно-белых изображений не могу с Вами согласиться, хотя размер, они, конечно, добавляют.
Полутоновые иллстрации - djvu-small и так их портит, после обработки, мне кажется, будет еще хуже.
Обложки ужал не жалея как только мог, может и тут есть "ресурс"?
Наверх
 
 
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 239
Алма-Ата
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #13 - 22.04.2014 :: 18:24:38
 
Если вы кодируете в djvu-small, то включаем словарь.

Опции->Документ DjVu(2)
  Сохранение деталей - Агрессививное
  Страниц в словаре - 20

Кодировать полутоновые иллюстрации в чистом djvu-small, я бы не рекомендовал (изуродует).

Хотел бы услышать аргумент против бинаризации чисто черно-белых иллюстраций.
Например страница 6. Можно получить диаграммы с разрешением в 600dpi, но делаем в 200dpi, получаем больший размер при худшем качестве. Не понимаю.
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #14 - 22.04.2014 :: 18:47:32
 
Цитата:
Хотел бы услышать аргумент против бинаризации чисто черно-белых иллюстраций.
Это мое субъективное восприятие таких изображений, даже простые графики выглядят хуже, чем на бумаге (различные толщины линий выравниваются, мелкие символы либо становятся слишком жирными, либо пропадают штрихи).
Рис. 20, стр. 52 - часто на подобных ч.б. рисунках невозможно разобрать деталей.
Изображение на стр. 6 обработано так для единообразия.

Цитата:
Например страница 6. Можно получить диаграммы с разрешением в 600dpi, но делаем в 200dpi, получаем больший размер при худшем качестве. Не понимаю.
Все было отсканировано и обрабатывалось в 600 dpi, не понял Вас.
Наверх
 
 
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 239
Алма-Ата
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #15 - 22.04.2014 :: 19:10:38
 
maddy писал(а) 22.04.2014 :: 18:47:32:
Все было отсканировано и обрабатывалось в 600 dpi, не понял Вас.


Тем более если было отсканировано 600dpi. Все должно получиться очень хорошо, иногда нужен другой порог бинаризации по сравнению с текстом.

Но при кодировании вы отправили иллюстрации в фон, с понижением разрешения в три раза, до 200dpi. Это нормально, когда разрешение фона меньше чем у слоя маски(текста). Только слой фона лучше использовать для изображений с плавным и не частым изменением яркости(цвета).
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4703
Санкт-Петербург
Re: Вопросы по обработке скана на примере
Ответ #16 - 22.04.2014 :: 20:12:58
 
AlVaKo писал(а) 22.04.2014 :: 19:10:38:
Но при кодировании вы отправили иллюстрации в фон, с понижением разрешения в три раза, до 200dpi. .

тогда у меня вопрос: где это регулируется - понижение разрешения?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 239
Алма-Ата
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #17 - 22.04.2014 :: 21:13:39
 
Зависит от того какой конкретно кодировщик используется. И каким образом обрабатываются файлы.

Допустим обрабатываем скан единым файлом, и отправляем на сегментатор/кодировщик.
Если я правильно понял, то maddy именно так и поступает.

В оболочке DjvuSmall:
  Опции->Документ DjVu(1)
  пониж. ресемплинг ЗП   // ЗП-это Задний План

Оболочка DjvuSmall, в свою очередь использует консольный кодировщик documenttodjvu.exe. Так вот, у documenttodjvu.exe есть опция для профайла
  bg-subsample   //делитель плотности для фона
и по умолчанию это значение равно трем.

Если работаем с использованием субсканов, и связки DjvuSmall+DjvuImager, то делитель для фона выставляется в DjvuImager. Учитывая плотность у субсканов. Но мог уже и забыть, пользовался один раз три года назад.
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
maddy
Постоялец
**
Вне Форума



Сообщений: 62
Пол: male
Re: Вопросы по обработке скана на примере
Ответ #18 - 24.04.2014 :: 09:08:49
 
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать