OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Борьба с пятнами среди текста (Прочитано 2075 раз)
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Борьба с пятнами среди текста
13.04.2023 :: 19:21:02
 
Попробовал поиском нарыть похожую тему, результат 0, а движок форума меня чуть не забанил, мол нагрузку создаю.

Для борьбы с пятнами среди текста пользую щадящую методику:
1) С помощью "Дилатации" определить среднюю толщину литер. (каждая "Дилатация" убирает 2 пикселя с литеры, на текущем материале у меня выходит 3 "Дилатации", после чего от текста остаются отдельно взятые тонкие чёрточки == 3*2 = 6 пикселей)
2) Создать копию слоя.
3) На копии удалить (любым выделением) всё, что не подлежит "отбеливанию". (смело удаляйте всё, что хотите оставить без изменения: заголовки, рисунки, просто текст без пятен).
4) К слою-копии применить "Гауссово размывание" с тем самым радиусом 6 пикселей.
5) "Инвертировать яркость" слоя-копии.
6) Наложить полученный "почти чёрный" слой-копию на исходный в режиме "Осветление".

Как я уже сказал, данный метод щадящий и не полностью удаляет пятна, но и текст трогает очень слабо. При этом к остаткам от пятен можно применять уже другие простые методы либо вообще отдать на откуп "Порогу".

Ежели есть какие то модификации или аналогичные рецепты, делитесь, не стесняйтесь.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
AlVaKo
Гуру
****
Вне Форума



Сообщений: 576
Алма-Ата
Пол: male
Re: Борьба с пятнами среди текста
Ответ #1 - 13.04.2023 :: 22:49:38
 
Про какие пятна речь?  Исходный деффект бумаги, пятна от пользователей, помарки от краски, при тонкой бумаге просвечивание текста от другой стороны листа. Какой размер пятен? 

Цитата:
3) На копии удалить (любым выделением) всё, что не подлежит "отбеливанию".

Это вручную удалять, индивидуально на каждой странице? Очень высокая трудоемкость.

Мусор меньше "точки", "запятой" удаляются автоматом на основе простейшего критерия - пиксельный размер объекта. Но есть проблема, удаляются фрагменты плохо пропечатанных букв.

Можно удалять мусор крупнее "точки", который отдален от букв, тоже на автомате. Проблема, можно потерять многоточия и отточия на странице с содержанием.

Основная проблема для подобных автоматических алгоритмов найти критерий, 100% отличающий мусор(пятно) от нужного графического объекта.
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Борьба с пятнами среди текста
Ответ #2 - 13.04.2023 :: 23:34:21
 
AlVaKo писал(а) 13.04.2023 :: 22:49:38:
Про какие пятна речь?  Исходный деффект бумаги, пятна от пользователей, помарки от краски, при тонкой бумаге просвечивание текста от другой стороны листа. Какой размер пятен?

Водянные (чайные, кофейные) пятна от небрежного обращения с изданием. Размером от двух символов до нескольких слов и более.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
AlVaKo
Гуру
****
Вне Форума



Сообщений: 576
Алма-Ата
Пол: male
Re: Борьба с пятнами среди текста
Ответ #3 - 14.04.2023 :: 00:15:20
 
Пятна от чая меняют яркость фона. Для борьбы с неравномерным фоном, можно посмотреть в сторону методов бинаризации с локальной адаптацией порога. Размер локального окна примерно 1.5-2 размера символов. Границы пятна будут бинаризированы в тонкую черную линию. Внутри пятна, буквы отбинаризируются более менее нормально. 
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Борьба с пятнами среди текста
Ответ #4 - 14.04.2023 :: 01:16:27
 
AlVaKo писал(а) 14.04.2023 :: 00:15:20:
посмотреть в сторону методов бинаризации с локальной адаптацией порога. Размер локального окна примерно 1.5-2 размера символов.

Можно. И на определённом материале очень даже неплохо работает. Так что плюсую. Но не на любом материале и не в случае, когда нужна некая хитрая обработка, типа DjVuL.
Наверх
« Последняя редакция: 14.04.2023 :: 19:22:39 от zvezdochiot »  

Keep it simple, stupid
WWW  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Борьба с пятнами среди текста
Ответ #5 - 14.05.2023 :: 01:31:09
 
zvezdochiot писал(а) 13.04.2023 :: 19:21:02:
3) На копии удалить (любым выделением) всё, что не подлежит "отбеливанию". (смело удаляйте всё, что хотите оставить без изменения: заголовки, рисунки, просто текст без пятен).

На определённом материале возникло "затруднение". Фон сильно отличался от белого. И даже ежели пользовать не белый цвет в качестве фонового, а некий "средний", то возникает эффект блочности. И чем неоднороднее фон, тем сильнее эффект.

Решение: Использовать ещё один средний слой с применением к нему сильного "Гауссова размывания" радиусом порядка 50-100. А к верхнему слою "Добавить альфа-канал", чтобы удаляемые области замещались своими сильно размытыми версиями. Когда все не подлежащие обработке объекты удалены с верхнего слоя, объединить его с сильно размытым. И только после этого пункт 4.
Наверх
« Последняя редакция: 14.05.2023 :: 03:13:10 от zvezdochiot »  

Keep it simple, stupid
WWW  
IP записан
 
Pikachu
Новичок
*
Вне Форума


Всем привет!

Сообщений: 31
Пол: male
Re: Борьба с пятнами среди текста
Ответ #6 - 19.05.2023 :: 15:26:39
 
Коллеги, извиняюсь, если не совсем по теме. А есть ли способ узнать - скан перед тобой, сделанный прогонкой через сканер либо это снимок, созданный на хорошем фотике. Смотрю в Exif - ничего кроме надписи Canon Inc. Разрешение 600dpi. Вроде все отлично смотрится, но не покидает ощущение, что просто отфотали страницу.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5572
Екатеринбург
Пол: male
Re: Борьба с пятнами среди текста
Ответ #7 - 19.05.2023 :: 15:32:17
 
спросить автора скана, например.

По-моему, у фотиков шум матрицы специфический. Если убрать само изображение - забыл уж как - то у обычного сканера будет полосчатый шум, а у фотика двумерная стохастика. Детали не помню за давностью лет. Что-то связанное с переводом в частотную область.

UPD
или наоборот Улыбка из-за какого-то там линейчатого фильтра на фототранзисторных ячейках. slava_kry небось точно знает.
Наверх
« Последняя редакция: 19.05.2023 :: 15:47:22 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Pikachu
Новичок
*
Вне Форума


Всем привет!

Сообщений: 31
Пол: male
Re: Борьба с пятнами среди текста
Ответ #8 - 19.05.2023 :: 16:05:25
 
AAW писал(а) 19.05.2023 :: 15:32:17:
спросить автора скана, например.

По-моему, у фотиков шум матрицы специфический. Если убрать само изображение - забыл уж как - то у обычного сканера будет полосчатый шум, а у фотика двумерная стохастика. Детали не помню за давностью лет. Что-то связанное с переводом в частотную область.

UPD
или наоборот Улыбка из-за какого-то там линейчатого фильтра на фототранзисторных ячейках. slava_kry небось точно знает.

С вопросом автору точно отпадает, не хотелось бы его обижать за его труд. Просто...в 600dpi отсканить за такое короткое время... Я думаю сейчас есть фотики с качеством сравнимым по сканеру. Но все равно фотосканы в каком-либо не переношу на дух и сам никогда их не делаю.
В метаданных хотел подглядеть, но там практически никакой инфы. Точнее, они полностью отсутствуют, посему и возник вопрос.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5572
Екатеринбург
Пол: male
Re: Борьба с пятнами среди текста
Ответ #9 - 19.05.2023 :: 16:40:43
 
Pikachu писал(а) 19.05.2023 :: 16:05:25:
Просто...в 600dpi отсканить за такое короткое время...

мой А3 рикох сканит 7 страниц А4 в минуту. Это в сером. Оптикбук 4800 3 цв.стр/минута. То есть я 400-страничную книгу обычного формата отдам за 75 минут, это час с четвертью. При сильном желании. Меньше чем учебная пара.
И - книга может быть отсканена заранее.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Борьба с пятнами среди текста
Ответ #10 - 19.05.2023 :: 17:26:52
 
@
Pikachu
Два файла дайте, один с текстом, один с картинкой. Попробую определить.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Борьба с пятнами среди текста
Ответ #11 - 19.05.2023 :: 17:28:11
 
Нормальный фотоскан ничем не отличается от простого скана. Чаще даже лучше.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Pikachu
Новичок
*
Вне Форума


Всем привет!

Сообщений: 31
Пол: male
Re: Борьба с пятнами среди текста
Ответ #12 - 20.05.2023 :: 08:16:55
 
AAW писал(а) 19.05.2023 :: 16:40:43:
мой А3 рикох сканит 7 страниц А4 в минуту. Это в сером. Оптикбук 4800 3 цв.стр/минута. То есть я 400-страничную книгу обычного формата отдам за 75 минут, это час с четвертью. При сильном желании. Меньше чем учебная пара.
И - книга может быть отсканена заранее.

Да, но он много занят, условия работы такие, что приходится быть постоянно в разъездах. Поэтому удивился, когда он успел.
slava_kry писал(а) 19.05.2023 :: 17:26:52:
@
Pikachu
Два файла дайте, один с текстом, один с картинкой. Попробую определить.

Спасибо, пришлю для образца. Фото нет, там один текст сплошняком. Я бы не задавал вопрос. Просто сканер у него другой модели, в изо указано - CanonInc.



Наверх
 
 
IP записан
 
Pikachu
Новичок
*
Вне Форума


Всем привет!

Сообщений: 31
Пол: male
Re: Борьба с пятнами среди текста
Ответ #13 - 20.05.2023 :: 08:24:20
 
Коллеги, и еще подскажите, пожалуйста. Каким редактором можно аккуратно и без потери качества обрезать сканы в пакетном режиме, убрав черные поля по краям.
В XnView как-то не понятно это реализовано. Может есть более лучшие варианты. Спасибо!
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5572
Екатеринбург
Пол: male
Re: Борьба с пятнами среди текста
Ответ #14 - 20.05.2023 :: 08:46:15
 
Pikachu писал(а) 20.05.2023 :: 08:24:20:
убрав черные поля по краям.

autocrop? или фиксированный размер?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Борьба с пятнами среди текста
Ответ #15 - 20.05.2023 :: 11:36:58
 
Pikachu писал(а) 20.05.2023 :: 08:24:20:
без потери качества

Какая потеря имеется в виду? Необходимо обрезать JPEG-и?
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
Pikachu
Новичок
*
Вне Форума


Всем привет!

Сообщений: 31
Пол: male
Re: Борьба с пятнами среди текста
Ответ #16 - 22.05.2023 :: 08:28:48
 
Добрый день!
AAW писал(а) 20.05.2023 :: 08:46:15:
autocrop? или фиксированный размер?

Желательно автообрезка, но и второй вариант рассматриваю тоже.

zvezdochiot писал(а) 20.05.2023 :: 11:36:58:
Какая потеря имеется в виду? Необходимо обрезать JPEG-и?

Просто я обрезаю сканы в PDF XChange. Показалось удобным и быстрым. Но при сохранении визуально падает качество, по видимому сжимает изо, поэтому решил рассмотреть более лучшие альтернативы.



Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5572
Екатеринбург
Пол: male
Re: Борьба с пятнами среди текста
Ответ #17 - 22.05.2023 :: 09:23:48
 
автообрезка около-черных полей, наверное возможна только в ФШ или GIMP. Может Кромсатор умеет, но мне в свое время не удалось угадать с настройками. Он искал твердо только текст, а сплошную заливку игнорил.

Ну а фиксированный размер в полпинка делает ирфан. Причём по-моему как фикс.поля режет, так и фикс.габариты задаёт. Пакетно, естественно.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Борьба с пятнами среди текста
Ответ #18 - 22.05.2023 :: 18:30:00
 
Pikachu писал(а) 22.05.2023 :: 08:28:48:
Просто я обрезаю сканы в PDF XChange.

Из вашего "описания" совершенно непонятно, что вы делаете или хотите сделать. Дайте ссылки на образцы, иллюстрирующие производимые вами действия.

Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать