OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Как обрабатывать тонкие шрифты? (Прочитано 1795 раз)
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Как обрабатывать тонкие шрифты?
17.07.2019 :: 21:00:44
 
Пытаюсь обработать черно-белые сканы со шрифтом, у которого после прогона через Scan Tailor для поворота сканов и удаления краёв исчезают части букв. Прошу подсказать, что делать. Сначала увеличиваю размер через IrfanView, так как по другому в  Scan Tailor не загружается. Пробовал оставлять цветные изображения. Однако после распознавания получается слишком размыто, хочу чтобы было чёрно-белое. Скачать архив с образцами http://vedomo.ru/1TEMP/Kak-sdelati-xorosho.zip
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4289
Екатеринбург
Пол: male
Re: Как обрабатывать тонкие шрифты?
Ответ #1 - 17.07.2019 :: 22:37:42
 
opliaboy писал(а) 17.07.2019 :: 21:00:44:
после распознавания получается слишком размыто

То есть?? Код же должен после распознавания появиться, т.е. номер символа. О какой размытости речь?
Я бы не делал столь сильное ужатие джипега на вашем месте. Непонятно, на чём тут выигрыш, если джипег 0,5-0,55Мб, а выходной тифф 0,1-0,13Мб. При этом выход хрен прочтёшь.

Вот вам пример обработки ваших джипегов с удалением (метёлкой, бездумно, то есть по всему листу чохом) и без удаления мусоринок в Кромсаторе. Глазами, мне кажется, читаемо. Но 8й файнридер на мусорном тексте дает многовато ошибок в одних местах (где точек много), а на почищенном тексте - много ошибок на других местах, где перемычки из-за чистки пропали. Вручную надо мусор чистить.
https://yadi.sk/d/1n_fK74WBL1q3g
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Постоялец
**
Вне Форума



Сообщений: 187
Re: Как обрабатывать тонкие шрифты?
Ответ #2 - 18.07.2019 :: 03:11:51
 
Мой вариант. Фотошоп с последующим ручным поворотом. Из OCR  у меня только встроенный в Djvupro, который довольно говенный (особенно достает, при явно выставленном языке, пихать везде r вместо г), но даже он справился более-менее сносно.

P.S. Экшн могу описать тут или кинуть куда, если надо.
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #3 - 18.07.2019 :: 04:29:51
 
Благодарю за помощь.

AAW, вот пример PDF, который получался в цвете. В принципе читаемо, однако для этой задачи такое качество не очень подходило.
http://vedomo.ru/1TEMP/Kak-sdelati-xorosho.zip
Вы пишите "Я бы не делал столь сильное ужатие джипега на вашем месте". Вы имеете в виду, что надо другие настройки при сканировании принтером или при преобразовании в черно-белое?

joker2156, хороший результат у Вас получается, только Фотошоп не пользуюсь (делаю в GIMP).

Посоветовали Scan Tailor Advanced (4lex4) https://github.com/4lex4/scantailor-advanced/releases . Там на последней вкладке обработки есть ползунок жирности. Его выставить если на 37%, то получается, примерно, как здесь https://cloud.mail.ru/public/2Za4/5625VUN12 . Планирую этим способом воспользоваться.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4289
Екатеринбург
Пол: male
Re: Как обрабатывать тонкие шрифты?
Ответ #4 - 18.07.2019 :: 05:36:46
 
opliaboy писал(а) 18.07.2019 :: 04:29:51:
надо другие настройки при сканировании принтером

да.
По уму, если вам нужен графический выход (чб картинка), то на скане не должно быть артефактов от сжатия. То есть хотя бы 1,5мб на ваш оригинал. Примерно, конечно. А лучше сканить в 600дпи. Я-то всегда в цветной тифф сканирую. Тогда читаемость текста повысится. У joker2156 прекрасный вариант, но и его читать больше десятка страниц подряд будет невозможно. Вот ФР8 практически не ошибся нигде на его варианте. Может, ошибок пять всего.

ваша ссылка про PDF неверная?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 635
Re: Как обрабатывать тонкие шрифты?
Ответ #5 - 18.07.2019 :: 09:37:33
 
opliaboy

Вы неправильно делаете.
Вы увеличьте не в 2 раза, а в 5-6. Т.е. чтобы по длинной стороне (вертикали) было около 10.000 пикс.
Заставьте СТ считать разрешение этого как 600.
И делайте уже из СТ ч\б  вывод в 600. (а в ст же грузите цветные).

Потом получившееся в 2-3 раза в Ирфане или СК уменьшите.


Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #6 - 18.07.2019 :: 10:52:32
 
Извеняюсь, во второй раз не ту ссылку показал, хотел тогда вот эту http://vedomo.ru/1TEMP/naschetrazmitosti.zip
Однако после последних советов, понял, что надо пробовать делать по другому.
В Windows XP сканировал утилитой C:\WINDOWS\system32\wiaacmgr.exe для сканирования и скрипт для сокращения колличества нажатий кнопок. Сейчас планирую переделать с более высоким DPI часть страниц, чем было выставлено (знаю, что надо сканировать в 300 DPI, оказывается в 600 тоже сканируют, как Вы пишите). У этой утилиты правда вывод только в jpeg.
Может попробую через IrfanView или Finereader сканировать. Недавно купил к ноутбуку б.у. сканер , пока не привык к нему, раньше сканировал через МФУ на другом ПК утилитой Epson от него.

Цитата:
Заставьте СТ считать разрешение этого как 600
Вы имеете в виду, что при открытии файлов указывать "Исправить DPI"?
Наверх
 
 
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 635
Re: Как обрабатывать тонкие шрифты?
Ответ #7 - 18.07.2019 :: 11:12:16
 
да
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #8 - 18.07.2019 :: 15:37:11
 
Цитата:
Вы увеличьте не в 2 раза, а в 5-6. Т.е. чтобы по длинной стороне (вертикали) было около 10.000 пикс.
А какой объём оперативной памяти минимальный нужно иметь на компьютере, чтобы Скан Таилор не упал из-за нехватки ресурсов ПК? В каком формате сохранять файлы перед загрузкой в Скан Таилор?
Наверх
 
 
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 635
Re: Как обрабатывать тонкие шрифты?
Ответ #9 - 18.07.2019 :: 16:29:19
 
А вы попробуйте и узнаете.
4 Gb, кажется. Ведь у XP есть встроенные ограничения на оперативку.

Но если у вас есть возможность на 600 посканить, то лучше посканить и танцы с бубном вокруг этих ужасных картинок не устраивать.  "Больших семь шапок из овцы не сделаешь никак."

Джипег формат с потерями и лучше его не использовать. Но если выхода нет, то можно и его задействовать. Вопрос в том, что вы в результате получить хотите.
Сканируйте 600 дпи цвет тиффы и будет вам щасте.

PS
если ваша утилита дает только джипеги, то даже не связывайтесь со сканами на 300 результат хорошим не будет, хотя может и с OCR-ится.
А вот 600 дпи джипеги еще могут быть доведены до приемлемого состояния.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4289
Екатеринбург
Пол: male
Re: Как обрабатывать тонкие шрифты?
Ответ #10 - 18.07.2019 :: 16:42:01
 
xyz писал(а) 18.07.2019 :: 16:29:19:
если ваша утилита дает только джипеги


Вроде у сканеров стандартный интерфейс, TWAIN. Обеспечивается родными драйверами, разумеется. И тогда можно заюзать vuescan.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 635
Re: Как обрабатывать тонкие шрифты?
Ответ #11 - 18.07.2019 :: 17:01:41
 
У меня по моей методе (которую я называю "избыточным апскейлингом") из ваших сканов версии №1 (1275*1755 пикс)
получилось вот так:

https://yadi.sk/i/IchJVG3CSVUXkg

увеличивал в 6 раз; в СТУ надо отключить пейж детект , чтобы не выпадал; потом в СК уменьшение в 2 раза и деспекл.
Комп: Win XP c 4 Gb оперативки.

Это работает для сканов с заниженным разрешением, как правило, скачиваемых в сети. Читаться и распознаваться будет.
Но буквы некрасивые и для других читателей лучше посканить хорошо. И если у вас есть книжка и сканер, то зачем так уродоваться ?

PS
Кстати в джву ошибка инь полезла (по одной на каждой странице заметил).
Так что, может, и не стоит уменьшать в 2 раза.
Наверх
« Последняя редакция: 18.07.2019 :: 17:08:05 от xyz »  
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #12 - 18.07.2019 :: 17:06:01
 
10000 тысяч пробовал выставлять. В Jpeg получился файл около 34 мегабайт. 2 гигобайта оперативки Скан Тейлору не хватило. Виртуальная память выставлена в 2046 мб.

Установил сейчас расширенный драйвер к сканеру HP Scanjet G2710. Не настраивал ли кто такую программу? Надо экспериментировать с разными галочками.

...

...

...
Наверх
 
 
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 635
Re: Как обрабатывать тонкие шрифты?
Ответ #13 - 18.07.2019 :: 17:21:08
 
сканировать все стекло, галочку резкость отключить.

Далее экспериментировать. Максимальное качество будет при  600 дпи цвет, тиффы.
но сканер скорее всего будет давать разную скорость, а прирост качества будет маловатый.

300 дпи , серый, тиффы
300 дпи , цветной, тиффы

600 дпи , серый, джипеги
600 дпи , серый, тиффы
600 дпи , цветной, джипеги
600 дпи , цветной, тиффы

Если у вас там в книге реально тонкие перемычки, то с 300 я бы не связывался.
Если всё-таки будете делать джипег, то есть еще ерунда с качеством джипега, его там в настройках сканера надо выкрутить на максимум, обычно у эпсона по умолчанию там не 100%.
Посмотрите не только текстовые страницы, но и картинки. Иногда деградация качества джипега заметна именно на иллюстрациях.
Наверх
 
 
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 114
Re: Как обрабатывать тонкие шрифты?
Ответ #14 - 18.07.2019 :: 18:59:02
 
Если уж совсем ничего не получается, можно, наверное, и вот так:https://cloud.mail.ru/public/5fRz/3kysjHkHU обработать.
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #15 - 19.07.2019 :: 09:57:38
 
Благодарю за ответы. zorro04, а как можно делать такой хороший вариант?
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #16 - 19.07.2019 :: 20:36:21
 
Цитата:
сканировать все стекло, галочку резкость отключить.
Благодарю. Пока что решил этим интерфейсом не пользоваться. Бывают с ним некоторые проблемы. Не сразу пишет каждый файл в папку, а надо сначала всё отсканировать, а потом нажать кнопку "Готово" и тогда начнётся загрузка файлов в директорию назначения. Написал на емайл IrfanView, чтобы доработали настройки сканирования. Ещё может быть в ближайшие месяцы доработают HippoScan, у него разрешение не меняется, у автора написано тоже об этом http://sandboxlab.ru/home/gbook/
Наверх
 
 
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 114
Re: Как обрабатывать тонкие шрифты?
Ответ #17 - 19.07.2019 :: 20:53:53
 
opliaboy писал(а) 19.07.2019 :: 09:57:38:
Благодарю за ответы. zorro04, а как можно делать такой хороший вариант?

Тут нам в помощь нейронные сети Очень довольный
Берем Topaz Gigapixel AI, увеличиваем исходники в 6 раз, затем скармливаем все это СканКромсатору (у Тэйлора памяти на обработку не хватает), бинаризируем  и получаем прямо из него дежавюшку.
Минусы метода:
-много времени на обработку
-огромный размер выходных файлов
-могут быть проблемы с OCR
- не всегда корректно обрабатываются иллюстрации
-если изображений много, то может не хватить памяти и СканКромсатору 
P/S полученное изображение можно уменьшить, но будет небольшая потеря в качестве и большой выигрыш в размере
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #18 - 20.07.2019 :: 00:08:47
 
Благодарю за информацию. Кстати сканировать в TIFF с настройкой DPI 300-600 можно утилитой, которая находится по пути C:\WINDOWS\system32\wiaacmgr.exe (знаю, что в Windows XP так). Только варианта со сжатием нету. При DPI 300 пробный файл получился около 20 с чем то мегабайт. Так как там много нажатий на клавиши, удобнее задействовать какую нибудь программу автоматизации нажатий мыши с записью перемещения мыши и нажатий с последующим воспроизведением.
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 70
Re: Как обрабатывать тонкие шрифты?
Ответ #19 - 20.07.2019 :: 13:06:16
 
Цитата:
Написал на емайл IrfanView, чтобы доработали настройки сканирования
Получил ответ.
Hi,

This is not IrfanView, this is your scanner driver.
Try to update it ... usually, drivers save the settings and use them when you next time call the IrfanView menu: File->Acquire.

Sorry, no button ... just a hotkey for the menu.

---
- Скрыть цитируемый текст -
    Hello. Sorry for interrupting. When I scan the image with a scanner
    and save it in a tiff format, then on each new page I have to set the
    DPI 300 for a new one. And each time it changes by 150 itself before
    scanning the next page. I would also like to perform a scan by
    pressing a single button, preferably a space. And then there are too
    many clicks to reach the scan button.

Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать