OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Проблемы с тонкими перемычками и засечками шрифта (Прочитано 4736 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Проблемы с тонкими перемычками и засечками шрифта
03.01.2017 :: 19:40:50
 

Послушал я тут урок по сканкромсатору от AAW

https://www.youtube.com/watch?v=NfvHZJ2KhsM&feature=em-subs_digest

и закралось сомнение - а может, черт с ними, с пропадающими перемычками в "Н" и "И" ?
Действительно, если добиваться четкости этих перемычек, остальной шрифт ужирняется и закругляется, и пропадает "линия строки, образованная засечками шрифта"
Наверх
« Последняя редакция: 19.05.2020 :: 23:03:10 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4179
Екатеринбург
Пол: male
Re: Шрифт в djvu - перемычки и засечки
Ответ #1 - 03.01.2017 :: 21:17:51
 
ну а распознавание?

да и вообще, это ведь моё личное мнение. дальше моих сканов это мнение нелегитимно.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Re: Шрифт в djvu - перемычки и засечки
Ответ #2 - 03.01.2017 :: 22:01:19
 
AAW писал(а) 03.01.2017 :: 21:17:51:
ну а распознавание?
да и вообще, это ведь моё личное мнение. дальше моих сканов это мнение нелегитимно.

Вы же сами говорили - это палка о двух концах (даже о трех Улыбка ):
1) красивость текста - округлые жирные буквы (и, возможно, легкость распознавания, но не факт)
2) насколько сильно будут уставать глаза при чтении с экрана (или с бумаги) - есть противоречие с п.1
3) что получится при печати? (возможно, на экране будет легко читаться, а при распечатке - плохо)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4179
Екатеринбург
Пол: male
Re: Шрифт в djvu - перемычки и засечки
Ответ #3 - 04.01.2017 :: 05:41:40
 
Dmitry7 писал(а) 03.01.2017 :: 22:01:19:
Вы же сами говорили - это палка о двух концах

Именно. Я не могу доказать своё мнение о том, что буквы надо делать потоньше и почётче. Всё, что я хотел сказать на ютьюбе - добивайтесь компромисса между вышеприведёнными тремя пунктами. Их я и показал. Критерием служит совпадение с контурами на скане (всё хочу какую-нибудь программку, которая бы дельту наглядно показывала...)
Есть ещё и четвёртый пункт: количество мусора для окончательной чистки. Бывает, добьёшься нормального вида - но мусора вылазит столько, что чистить месяц. Отказываюсь Печаль

да, ещё: чем жирнее буквы, тем больше риска эффекта "инь". Видимо, процент совпадения контуров на более жирненьких буквах проще становится повыше, чем порог неразличимости и замены, - потому что "чёрного больше" Улыбка. Бывает, даже на 600дпи, на вполне чётких контурах, если буквы маленького кегля, и у них Bold-вариант начертания, то "инь" появляется. Особенно на гарнитуре как в Желязны, что я в видео показал. Довольно толстенькой самой по себе.
Наверх
« Последняя редакция: 04.01.2017 :: 06:07:31 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4179
Екатеринбург
Пол: male
Re: Шрифт в djvu - перемычки и засечки
Ответ #4 - 04.01.2017 :: 06:34:43
 
Для себя я применяю примерно такой алгоритм: ищу настройки enhance, которые как можно лучше вытягивают  полустёртые перемычки, поглядывая, не корёжится ли контур шрифта в самых жирных местах страницы. Как только почуял, что "хорош ужирнять", смотрю как дела с полустёртостью. Если терпимо, то есть легкочитаемо в виде "две страницы на экране монитора в масштабе "по высоте страницы"", и полустёртость проявлена не больше чем в одном слове подряд - то останавливаюсь. Глаз восстановит смысл. А если всё плохо с читаемостью, то а) заменяю глифы и б) если заменять ну уж очень много, то отказываюсь от бинаризации и пакую страницу в photo (IW44), либо ищу другой экземпляр книги и пересканирую. Это нагляднее всего - в машинописных методичках институтов. Лента была с бледной краской, а формулы вписывали перьевой ручкой по плохой бумаге (то есть чернила растекались). Ужирняешь буквы печатной машинки - формулы сразу становятся жирными кляксами.
Конечно, на смысл текста надо смотреть. Пропажи в формулах и схемах/чертежах - уничтожают книгу целиком. Где избыточности нет, там догадаться нельзя, как в худтексте.
Наверх
« Последняя редакция: 04.01.2017 :: 08:19:26 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
altruist
Активист
***
Вне Форума


Всем привет!

Сообщений: 300
Russia.Penza
Пол: male
Re: Шрифт в djvu - перемычки и засечки
Ответ #5 - 20.02.2017 :: 14:39:19
 
Dmitry7 писал(а) 03.01.2017 :: 19:40:50:
Послушал я тут урок по сканкромсатору от AAW

https://www.youtube.com/watch?v=NfvHZJ2KhsM&feature=em-subs_digest

и закралось сомнение - а может, черт с ними, с пропадающими перемычками в "Н" и "И" ?
Действительно, если добиваться четкости этих перемычек, остальной шрифт ужирняется и закругляется, и пропадает "линия строки, образованная засечками шрифта"

Попался журнал, при бинаризации в статьях, где использовали шрифт с засечками, пришлось довольно долго восстанавливать буквы. Появилась идея использовать для восстановления FR, т.к. ему почти без разницы есть перемычки или нет. Для примера, текст исправлен обычным способом  https://yadi.sk/i/Bwo8XzX43EJ2bY и с помощью FR https://yadi.sk/i/ZJQ2wAUy3EJ2fg
Наверх
 

Хорошая вещь компьютер...Посидел пять минут-полтора часа прошло....
 
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 263
Алма-Ата
Пол: male
Re: Вопросы по программе ScanKromsator
Ответ #6 - 19.05.2020 :: 17:32:37
 
Проблема тонких перемычек(соединительных шрихов) не только в том что они тонкие, т.е. мало пикселей скана помещаются в ширине такого шриха. Проблема ещё и в том, что у пикселей, те что формируют тонкую перемычку, уровень затемнения ниже чем у пикселей формирующих основной штрих буквы. Большая разница в затемнении у разных штрихов самым прямым образом влияет на результат(качество) бинаризации. После работы всевозможных алгоритмов повышения разрешения изображения, относительный уровень зачернения шрихов останется неизменным. А значит эти алгоритмы не сильно могут помочь в последующей бинаризации. Одно из решений в лоб, сканировать сразу с высоким разрешением.
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
mais
Новичок
*
Вне Форума


Всем привет!

Сообщений: 44
Пермь
Пол: male
Re: Вопросы по программе ScanKromsator
Ответ #7 - 19.05.2020 :: 18:45:35
 
AAW, спасибо за информацию о PhotoZoom и Topaz, попробую.
AlVaKo, я согласен с вами, что увеличение разрешения изображения не сделает темнее светлые перемычки, но может быть за счёт программного увеличения dpi исходных сканов зазор между засечками в буквах будет не один-два пикселя, а несколько, и за счёт этого можно будет поднять порог бинаризации (предварительно, возможно, проведя гамма-коррекцию изображения), чтобы и перемычки не исчезали, и засечки не сливались. Конечно, сканирование с разрешением 600 dpi в градациях серого цвета заменит большую часть ухищрений по подбору настроек программ обработки, но уж больно медленно мой старенький Epson Perfection 3490 это делает;  400 dpi ещё куда ни шло, а 600…
Кстати, в первых же результатах поиска по запросу «фотозум и топаз» Гугл выдаёт ссылку на ЖЖ silver_ktulhu, у которого, помимо статьи об этих программах (https://silver-ktulhu.livejournal.com/296644.html), также 16 мая была опубликована новость об оцифрованных книгах П.Л. Трэверс. Мэри Поппинс, М. Гершезона. Робин Гуд и ещё двух, которые недавно были выложены на местном форуме. Slava_kry, это случайно не ваш ЖЖ? Если так, то хотелось бы узнать, насколько полезно применение PhotoZoom и Topaz до начала обработки сканов книг.
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 448
Re: Вопросы по программе ScanKromsator
Ответ #8 - 19.05.2020 :: 19:20:28
 
@
mais
... ЖЖ моё это...

Алгоритмы вам помогут, но не так сильно как вам кажется. Нужна подготовка и для алгоритмов тоже.
... да времени вы сэкономите чуть-чуть. Улыбка

У вас медленный сканер? Купите быстрый! Это эффективней, чем мучаться с алгоритмами и их подбором...

Вам AAW может много историй рассказать по поводу сканеров и их качества сканирования.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 263
Алма-Ата
Пол: male
Re: Вопросы по программе ScanKromsator
Ответ #9 - 19.05.2020 :: 20:49:27
 
mais писал(а) 19.05.2020 :: 18:45:35:
что увеличение разрешения изображения не сделает темнее светлые перемычки, но может быть за счёт программного увеличения dpi исходных сканов зазор между засечками в буквах будет не один-два пикселя, а несколько, и за счёт этого можно будет поднять порог бинаризации (предварительно, возможно, проведя гамма-коррекцию изображения), чтобы и перемычки не исчезали, и засечки не сливались.

То что я говорил про тонкие перемычки, действует в той же степени и для узких зазоров между засечками. Зазор в пикселах увеличится, яркость новых пикселов будет как у соседей. Перемычки бледные, не сильно "черные" а скорее "серые", и зазоры не сильно "белые" тоже норовят стать "серыми". Ну и куда алгоритму бинаризации податься?

Гамма по-моему тут бесполезна. Может быть, хотя не уверен, попробывать S-кривую яркости. Сжимать диапазон для уверенно темных и светлых пикселей и раздвигать для нечетких серых. Ну может быть попробовать локально адаптивную бинаризацию. Размер локального окна брать соизмеримым с шириной букв. Только могут вылезти другие проблемы.   
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4179
Екатеринбург
Пол: male
Re: Вопросы по программе ScanKromsator
Ответ #10 - 19.05.2020 :: 21:02:22
 
AlVaKo писал(а) 19.05.2020 :: 20:49:27:
Ну и куда алгоритму бинаризации податься?

ИМХО, вы не учли в рассуждении фильтры, использующие в алгоритме своей работы радиус. "Если серых пикселей вдоль радиуса наберется три..."
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 263
Алма-Ата
Пол: male
Re: Вопросы по программе ScanKromsator
Ответ #11 - 19.05.2020 :: 21:17:17
 
Вокруг пиксела от тонкой перемычки в основном будут пикселы от бумаги. Алгоритм повышения разрешения в худшем случае еще более осветлит перемычку, хорошо будет если оставит яркость как есть.

Если имеется ввиду какие-то фильты типа "не резкая маска", так они действовать будут и на другие серые пикселы, например от зазора. Какой такой фильтр  будет осветлять серые пикселы зазора когда вокруг куча темных от засечек и одновременно затемнять такие же серые пикселы перемычек в окружении светлых пикселей бумаги? И что будет делать фильтр с серыми пикселами на переходе от бумаги к толстому штриху?
Наверх
« Последняя редакция: 19.05.2020 :: 22:02:04 от AlVaKo »  

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Re:
Ответ #12 - 19.05.2020 :: 23:10:53
 


mais писал(а) 19.05.2020 :: 18:45:35:
... но уж больно медленно мой старенький Epson Perfection 3490 это делает;  400 dpi ещё куда ни шло, а 600…

Из этой серии неплохие сканеры Epson Perfection V370 Photo
(у меня такой, 600 dpi сканит ненамного медленнее, чем 300)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mais
Новичок
*
Вне Форума


Всем привет!

Сообщений: 44
Пермь
Пол: male
Re: Re:
Ответ #13 - 21.05.2020 :: 09:29:00
 
Dmitry7 писал(а) 19.05.2020 :: 23:10:53:
Из этой серии неплохие сканеры Epson Perfection V370 Photo
(у меня такой, 600 dpi сканит ненамного медленнее, чем 300)

Спасибо за рекомендацию, стоит он вполне доступных денег, около 10000 руб.
А верхнюю прижимную крышку у него снять можно? Всё равно при сканировании приходится прижимать книги руками к стеклу сканера, крышка только мешает.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Re: Re:
Ответ #14 - 21.05.2020 :: 10:45:45
 
mais писал(а) 21.05.2020 :: 09:29:00:
Спасибо за рекомендацию, стоит он вполне доступных денег, около 10000 руб.
А верхнюю прижимную крышку у него снять можно? Всё равно при сканировании приходится прижимать книги руками к стеклу сканера, крышка только мешает.

Полностью снять, наверное, нельзя, у него в крышке модуль сканирования слайдов, крышка на проводе, но откидывается больше. чем на 90 градусов. Хотя. может и можно, не пробовал.
Книги можно же прижимать не руками, а грузом (например, большой энциклопедией)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mais
Новичок
*
Вне Форума


Всем привет!

Сообщений: 44
Пермь
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #15 - 21.05.2020 :: 19:58:29
 
На моём Epson Perfection 3490 крышка полностью снимается: провод питания лампы подсветки слайдов к основному корпусу сканера подключается через восьмипиновый разъём, достаточно его просто выдернуть, а крышка держится на двух направляющих, которые просто вставляются в пазы корпуса.  Крышку снял - и ничто не загораживает обзор, можно и на экран телевизора посматривать, и на монитор  Улыбка
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #16 - 21.05.2020 :: 20:41:58
 
mais писал(а) 21.05.2020 :: 19:58:29:
На моём Epson Perfection 3490 крышка полностью снимается: провод питания лампы подсветки слайдов к основному корпусу сканера подключается через восьмипиновый разъём, достаточно его просто выдернуть, а крышка держится на двух направляющих, которые просто вставляются в пазы корпуса.  Крышку снял - и ничто не загораживает обзор, можно и на экран телевизора посматривать, и на монитор  Улыбка

Да, вот пишут, что здесь тоже полностью снимается
https://www.onlinetrade.ru/catalogue/skanery-c32/epson/fullreviews/skaner_epson_...

Однако, мы отвлеклись от темы пропадания тонких перемычек  Улыбка
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mais
Новичок
*
Вне Форума


Всем привет!

Сообщений: 44
Пермь
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #17 - 21.05.2020 :: 22:37:01
 
Пока для себя я нащупал такой метод работы с тонкими перемычками и широкими засечками:
- в SK 6.00.5 порог бинаризации устанавливаю в режим Auto (по-моему он достаточно хорошо обрабатывает страницы, корректировка бывает нужна незначительная);
- насколько я понял из Хрестоматии 2.1 по SK одним из основных инструментов для работы с перемычками и засечками является фильтр Unsharp mask. Значение радиуса устанавливаю 1-2, не больше, Strength - по ситуации, улучшения при увеличении числа проходов не заметил;
- заметил, что большие значения радиуса фильтра Gauss Blur помогают слипанию засечек, поэтому его значение устанавливаю не более 2-3, только чтобы хоть немного сгладить буквы;
- ну и фильтр Sharpen подключаю и тоже с небольшими значениями радиуса (в Хрестоматии настоятельно рекомендуют использовать Sharpen и Blur именно в паре).
- если очень бледные сканы, то гамму поднимаю до 1,2-1,4.

В некоторых сканах бесполезно бороться со слиянием засечек, они при печати слились. Например, пробовал крутить разные настройки SK, пытаясь обработать книгу Семенова С.А. "Происхождение земледелия", сканы которой выложил AbsurdMan в теме  "Сырые сканы (для обработчиков)" - бесполезно, особенности печати книги таковы, что засечки слились в сплошную линию. Но у некоторых букв при сильном увеличении изображения небольшой зазор между засечками просматривается, только у меня SK всё равно делает слияние, правда более тонкой линией, чем основные элементы шрифта. Вот я и подумал, что может быть можно было бы увеличить этот зазор путём программного увеличения разрешения изображения (добавить светлых пикселей). Но после аргументов AlVaKo склоняюсь к мысли, что заметного эффекта это не даст, да и время апсемплинга в PhotoZoom таково, что проще уж сразу сканировать книгу с большим разрешением.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4179
Екатеринбург
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #18 - 22.05.2020 :: 07:28:05
 
mais писал(а) 21.05.2020 :: 22:37:01:
только у меня SK всё равно делает слияние, правда более тонкой линией, чем основные элементы шрифта.

это из-за слишком маленького радиуса аншарп маск. я менее 4х крайне редко ставлю.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5031
Санкт-Петербург
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #19 - 22.05.2020 :: 08:17:43
 
AAW писал(а) 22.05.2020 :: 07:28:05:
это из-за слишком маленького радиуса аншарп маск. я менее 4х крайне редко ставлю.

у меня обычная настройка его: радиус = 4-5 / strength = 11-12
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AlVaKo
Активист
***
Вне Форума



Сообщений: 263
Алма-Ата
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #20 - 22.05.2020 :: 09:55:01
 
mais писал(а) 21.05.2020 :: 22:37:01:
Но у некоторых букв при сильном увеличении изображения небольшой зазор между засечками просматривается


Вот-вот, именно что зазор просматривается, а перемычка виднеется, т.к. человек больше смотрит на контраст(относительную яркость). А если взять абсолютную яркость пикселов? То можем столкнутся с ситуацией, когда в границах одной буквы, пикселы перемычек по яркости будут светлее чем пикселы зазора. И если для них применяется одинаковый порог, то при любом одинаковом пороге результат бинаризации будет неудовлетворительный. И никакие манипуляции с гамма-коррекцией, кривыми уровня яркости не помогут.
Наверх
« Последняя редакция: 22.05.2020 :: 10:16:13 от AlVaKo »  

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
mais
Новичок
*
Вне Форума


Всем привет!

Сообщений: 44
Пермь
Пол: male
Re: Проблемы с тонкими перемычками и засечками шрифта
Ответ #21 - 25.05.2020 :: 21:07:25
 
Dmitry7 писал(а) 22.05.2020 :: 08:17:43:
у меня обычная настройка его: радиус = 4-5 / strength = 11-12

Спасибо за совет, с радиусом = 4 шрифт получше выходит. Раньше я ставил подобные значения, но, очевидно, одновременно завышал величину радиуса фильтра Blur и результат мне не нравился, выходило сильное ужирнение букв.

Только у меня в версии SK 6.00.5 максимальное значение параметра Strength фильтра Unsharp Mask равно 9 и больше не увеличивается, да и этого обычно за глаза хватает, слишком много мусора на максимальных значениях появляется.

А у вас наверно более старшая версия SK; я читал, что bolega продолжает развитие своей программы.

Наверх
« Последняя редакция: 25.05.2020 :: 21:14:14 от mais »  
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать