OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Бинаризация и автосегментация (дискуссия) (Прочитано 828 раз)
bolega
Патриарх
*****
Вне Форума



Сообщений: 1109
Бинаризация и автосегментация (дискуссия)
21.01.2024 :: 18:45:40
 
joker2156 писал(а) 20.01.2024 :: 09:06:19:


Давно не встречал djvu с автосегментацией. В результате 600dpi выглядит как 150.
Наверх
« Последняя редакция: 21.01.2024 :: 19:12:39 от bolega »  
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #1 - 21.01.2024 :: 20:10:41
 
manjak1961 как-то хорошо мне ответил на аналогичную проблему: вы глазом огрехи замечаете? - Нет... - Ну вот и ладушки, а остальное меня не колышет.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #2 - 22.01.2024 :: 06:03:50
 
Ну если разница видна только в метаданных, то может и действительно проблемы нет, по типу DPI, если изображение 5000х3000, то изменение DPI без ресайза ни на что не влиляет, пока печатать не соберетесь. Возможно я просмотрел, сейчас выборочно глянул - все равно не вижу проблем, в том числе в метаданных, нельзя ли пару примеров, что не так?
Наверх
 
 
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1082
Re: Бинаризация и автосегментация (дискуссия)
Ответ #3 - 22.01.2024 :: 11:23:04
 
joker2156 писал(а) 22.01.2024 :: 06:03:50:
Ну если разница видна только в метаданных, то может и действительно проблемы нет, по типу DPI, если изображение 5000х3000, то изменение DPI без ресайза ни на что не влиляет, пока печатать не соберетесь. Возможно я просмотрел, сейчас выборочно глянул - все равно не вижу проблем, в том числе в метаданных, нельзя ли пару примеров, что не так?

В Занимательной логике посмотрите обложку. Глазик у попугая и кролика. Сравните как выглядит...
Наверх
 
 
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #4 - 24.01.2024 :: 10:12:08
 
Lykas писал(а) 22.01.2024 :: 11:23:04:
В Занимательной логике посмотрите обложку. Глазик у попугая и кролика. Сравните как выглядит...


Прохлопал, спасибо!
Переделал все зоны руками, размер подрос до 65мб, вроде таких проблем больше нет.
Срок хранения - две недели.
Удалил свое предыдущее сообщение, но ссылка, если что, осталась в ответе bolega.

Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #5 - 24.01.2024 :: 14:57:32
 
joker2156 писал(а) 24.01.2024 :: 10:12:08:
Переделал все зоны руками

но они все равно автосегментированы:
... ... ... ...
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #6 - 25.01.2024 :: 07:45:22
 
AAW писал(а) 24.01.2024 :: 14:57:32:
но они все равно автосегментированы:

В первом случае не понятно как получилось, возможно я криво сохранил, мне кажется я помечал как передний план (простые фигуры), а во стором случае я специально пометил рыбок как бэк, посчитав что для криволинейного силуэта лучше разрешение побольше. Если заблуждаюсь - буду признателен за пояснения.

UPD: скопировал страницу с фигурами,  на одной странице пометил фигуры как текст, на сторой - как картинку, в первом случае все равно произошло разделение, как на вашем скриншоте. Вероятно я не знаю как обрабатываются зоны переднего плана.
Наверх
« Последняя редакция: 25.01.2024 :: 07:57:02 от joker2156 »  
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #7 - 25.01.2024 :: 08:07:36
 
joker2156 писал(а) 25.01.2024 :: 07:45:22:
мне кажется я помечал как передний план

а! если вы вручную делили на передник и задник, то вопросов нет.

joker2156 писал(а) 25.01.2024 :: 07:45:22:
Если заблуждаюсь - буду признателен за пояснения.

на вкус и цвет все фломастеры разные. Меня так вообще удовлетворял и первоначальный вариант, я ничего не заметил глазами. Конечно, я проверяю как кодировали и последнее время даже в название файла добавляю "_avtosegmentacija", чтоб понимать в дальнейшем что внутри книги могут быть неожиданные ляпы.

Технически неправильно делить одну картинку на слои, потому что это усложняет ее опознавание и выдирание алгоритмами, если кто попробует в дальнейшем извлекать этот аквариум с рыбками как единый рисунок. Придется делать раскодирование и экспорт всей страницы. А если рисунок в одном слое - раскодировать слой. Кроме того, тот самый ищущий алгоритм может плохо воспринять эти резкие границы, которые получились от деления на слои.

Разный тип сжатия внутри одной композиции, особенно если границы соприкасаются, все-таки часто бросается в глаза. Лучше взять за правило явно указывать при кодировании "область такая-то - слой такой-то". Проблем будет меньше со всех сторон.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #8 - 25.01.2024 :: 08:08:46
 
joker2156 писал(а) 25.01.2024 :: 07:45:22:
UPD: ... пометил фигуры как текст


А в чём пометили?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #9 - 25.01.2024 :: 19:49:21
 
AAW писал(а) 25.01.2024 :: 08:08:46:
А в чём пометили?


Редактирование зон в Djvu Small mod. Им же и кодирую.
Профиль:

illustrated-600: scan600
pages-per-dict=99
block-overlap=2
resolution-multiplier=1
pix-filter-level=100
bg-subsample=1
disable-halftone=false
aggressive=false
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #10 - 25.01.2024 :: 20:00:14
 
joker2156 писал(а) 25.01.2024 :: 19:49:21:
Редактирование зон в Djvu Small mod. Им же и кодирую.

Хм. Вроде автор DSM в справке утверждал что разделение на зоны гарантирует попадание в FG или BG. Может  к ним еще специальный профиль применить надо?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #11 - 25.01.2024 :: 22:43:06
 
AAW писал(а) 25.01.2024 :: 20:00:14:
Хм. Вроде автор DSM в справке утверждал что разделение на зоны гарантирует попадание в FG или BG. Может  к ним еще специальный профиль применить надо?

Может в алгоритме есть какая-то логика для таких случаев, например при наличии нескольких цветов, условно, в равных пропорциях считать это фоном, но то что режется фигура пополам, конечно, выглядит странно.
На всякий случай или для экпериментов, вот два одинаковых джипега страницы 25 с соответствующими файлами зон

Добавил туда же файл с пятью вертикальными прямоугольниками, - красный, синий, желтый, светло-зеленый, черный. Пометил все как текст. В результате желтый и сз оказались в фоне, остальные три - в слое текста три черных прямоугольника, в слое маски - три цветных.  При кодировании профилем "lowcolor encoding" всё обработалось как надо, но сколько я не пытался этот профиль использовать "в лоб" на нормальных книгах - сыпятся ошибки:

msepdjvu: now processing sep file "-"
msepdjvu: processing [Page 1]

Corrupt or absent file D:\temp\0102_01.jpg
Unsupported color mode

> "D:\prfiles\djvu_small\Bin\MSepDjvu.exe" -fgsep -profile DjvuSmall
-q74+10+4+9 -p50 -l -vv -
"D:\prfiles\djvu_small\instances\8sq8j8wvfl7eq\w\4.djvu"

msepdjvu: now processing sep file "-"
msepdjvu: processing [Page 1]

System error in function -

Processing failed to finish.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #12 - 26.01.2024 :: 07:21:38
 
на руборде автора не спрашивали?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AlVaKo
Гуру
****
Вне Форума



Сообщений: 524
Алма-Ата
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #13 - 26.01.2024 :: 07:46:40
 
joker2156 писал(а) 25.01.2024 :: 22:43:06:
Может в алгоритме есть какая-то логика для таких случаев, например при наличии нескольких цветов, условно, в равных пропорциях считать это фоном, но то что режется фигура пополам, конечно, выглядит странно.


Ирфан говорит, что на 25-й странице 50 тыс цветов. У изображения с цветными полосками 215 цветов. Можно как-то сократить до действительно 5-6 цветов?

Если изображение хранить в JPG, то количество цветов очень сложно контроллировать.
Наверх
« Последняя редакция: 26.01.2024 :: 08:07:51 от AlVaKo »  

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #14 - 26.01.2024 :: 12:46:34
 
возможно как-то поможет эта инфа
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1156785706/268#268
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #15 - 26.01.2024 :: 20:03:08
 
Пастеризацией и переводом в tiff удалось избавиться от ошибки lowcolor encoding, только размер результата,  больше чем десять раз (675651 vs 59823), и изображение выглядит странно, вероятно я что-то опять неправильно сделал. См. изображение ниже(кликабельно). Этот же тиф "обычным" профилем все равно разбивает изображение на слои, правда трапеция остается целой, и на том спасибо. По правде говоря, поскольку "я не настоящий сварщик", меня лично такие нюансы мало волнуют, экспериментирую из уважения к мнению собравшихся.

...
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #16 - 26.01.2024 :: 20:28:49
 
joker2156 писал(а) 26.01.2024 :: 20:03:08:
По правде говоря, поскольку "я не настоящий сварщик", меня лично такие нюансы мало волнуют, экспериментирую из уважения к мнению собравшихся.

опыт набираете заодно.

--
должно было получиться что-то такое
https://disk.yandex.ru/d/4uo0sYxksN2e7w
Это СК, конечно.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AlVaKo
Гуру
****
Вне Форума



Сообщений: 524
Алма-Ата
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #17 - 26.01.2024 :: 21:04:37
 
Область текста не бинаризирована. Не говоря об цветных фигурах.

Вот чищеный скан из 5 цветов и djvu-ха

https://transfiles.ru/durva
Наверх
 

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #18 - 26.01.2024 :: 23:59:26
 
Ну 15к и 9К, конечно, гораздо лучше моих 60к на страницу. AlVaKo, а вы чем кодировали?

UPD: @Dmitry7 , не могли бы вы удалить или перенести всё обсуждение, кмк не в лучшем месте оно случилось.
Наверх
« Последняя редакция: 27.01.2024 :: 01:45:23 от joker2156 »  
 
IP записан
 
AlVaKo
Гуру
****
Вне Форума



Сообщений: 524
Алма-Ата
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #19 - 27.01.2024 :: 06:08:36
 
По сути тем же, чем и 12 лет назад. MSEPDJVU и оболочка. Например в двух темах пытаюсь объяснить тонкости MSEPDJVU.

Особенности кодирования в MSEPDJVU
Тонированная бумага

Я не пользуюсь DSm. Попробуйте "мой" чищеный скан подать в DSm, может и выйдит что-то путное. Проблема не в кодировании, проблема свести количество цветов до "числа пальцев на руке".

Для малоцветки надо проделать "цветную бинаризацию". Примерно тоже, что мы делаем с серыми сканами. Только не в 1-мерном пространстве яркости, а в 3(4)-мерном пространстве цветов.
Наверх
« Последняя редакция: 27.01.2024 :: 08:09:38 от AlVaKo »  

Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
 
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #20 - 27.01.2024 :: 21:22:37
 
Спасибо. Ваш файл на "моем" профиле все равно дает 43к в DSM. СК, как я понимаю, использует внешние программы для кодирования и, вероятно, те же профили что и DSM, если 15k AAW достижимы только для конкретного примера а не для всех иллюстраций - это, конечно, осложняет, в реальной книге овчинка может не стоить выделки. Профиль aggressive на файле AlVaKo дает 14к - Алексей, вы чем-то похожим кодировали? Я выбрал профиль Illustrated text с добавкой aggressive=false в качестве стандартного поскольку мне он показался оптимальным - умеренное увеличение размера с минимумом потерь.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #21 - 27.01.2024 :: 21:51:30
 
joker2156 писал(а) 27.01.2024 :: 21:22:37:
Алексей, вы чем-то похожим кодировали?

нет. СК не особо задействует профили кодера, в основном все на утилитах djvulibre.
Я выделял каждый однотонный объект как bw picture-zone и задавал ему цвет. Размер такой большой потому что я стараюсь использовать для текста беспотерьное кодирование, lossless, и оно в параметрах СК забито. И не применял ни заглаживание, ни заливку дырок, ни ручную подправку контуров объекта. В данном случае lossless конечно избыточен Улыбка Вот aggressive: https://disk.yandex.ru/d/rOuyx0yWjd7y2A 10кб

Ваша книга великолепно ложится в СК, по идее. Рисунки крупные, выделить их очень легко.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5891
Санкт-Петербург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #22 - 28.01.2024 :: 17:57:58
 
joker2156 писал(а) 26.01.2024 :: 23:59:26:
UPD: @Dmitry7 , не могли бы вы удалить или перенести всё обсуждение, кмк не в лучшем месте оно случилось.

перенёс сюда

Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #23 - 28.01.2024 :: 22:39:52
 
AAW писал(а) 27.01.2024 :: 21:51:30:
нет. СК не особо задействует профили кодера, в основном все на утилитах djvulibre.

У меня в File->Options->Apps  DEE указывает на \djvu_small\bin\documenttodjvu.exe в djvulibre такого не нашел, может просто переименовать что-то надо? Далее при Tools -> Create DJVU на вкладке Step1 как раз и выбирается профиль из djvu_small который у меня тот же что и в DSM. То же самое на Step2. Неправильно?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #24 - 28.01.2024 :: 23:00:47
 
joker2156 писал(а) 28.01.2024 :: 22:39:52:
Неправильно?

нет, правильно.
Но я-то задействовал малоцветные зоны, то есть раскраску блитов. А это уже или сам СК делает, или прога утилиты из djvulibre привлекает. Зависит от многого. Главное, СК не работает с DEE для таких зон. Его, конечно, можно заставить, поставив галки "ignore..." на первой закладке, но это просто невыгодно, будут те же проблемы что у вас с dsm.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 285
Re: Бинаризация и автосегментация (дискуссия)
Ответ #25 - 29.01.2024 :: 04:12:12
 
Понял, спасибо!
Наверх
 
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1109
Re: Бинаризация и автосегментация (дискуссия)
Ответ #26 - 29.01.2024 :: 08:40:04
 
AAW писал(а) 28.01.2024 :: 23:00:47:
Главное, СК не работает с DEE для таких зон. Его,

Еще как работает. Если я не рассказывал об этом (хотя вроде когда-то описывал), опишу здесь.
Ч/б раскрашенные зоны (задана раскраска текста, фона нет) кодируются вместе со всем содержимым страницы на step2 с помощью DEE. Это позволяет кодировать эти зоны наиболее оптимально, т.к. тогда используются мультистраничные словари. Потом уже СК сам присваивает блитам цвета, генерируя слой FGbz. Если раскрашенные зоны пересекаются или контактируют, то СК находит блиты, попадающие в зону пересечения и разбивает их на отдельные под-блиты, чтобы они не мешали друг другу, иначе раскраска будет некорректной.
Малоцветка кодируется тоже с помощью DEE, для каждого цвета создается временная страница, в котором цвет заменяется на черный. Затем все страницы кодируются  DEE, причем обязательно lossless. После этого СК объединяет все блиты и добавляет их в осноной файл, задание цветов  для них выполняется так же как я описал выше.
Почему lossless? Если lossy, то стыки разных цветов (а в малоцветке они есть всегда по определению) будут не совпадать, что приведет к нежелательным артефактам.
Теперь рассмотрим раскрашенную ч/б зону, у которой задан еще и цвет фона. Здесь возможны два варианта. По умолчанию СК создает однородный фон заданного цвета и кодирует его как IW44 300dpi. Если на странице присутствуют еще и цветные зоны, то dpi фона берется как у них. Во втором варианте ч/б зона трактуется как малоцветка, т.е. текст и фон кодируются блитами. Как правило, в таком варианте и качество лучше, и размер меньше. Чтобы СК выбрал второй вариант, нужно в зоне включить опцию few-color coding. В старых версиях СК эта опция игнорировалась для ч/б раскрашенных зон, в последних версиях используется как я описал.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5466
Екатеринбург
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #27 - 29.01.2024 :: 09:19:37
 
bolega
да, вы рассказывали.

я имел ввиду что DEE не использует профили и автосегментирование для малоцветки, вы сначала в Кромсаторе делаете все вручную, вот эти вот временные страницы и тэ пэ. Я по фиче separate b/w coding помню технологию. Но это всё технически так нетривиально и многопараметрично, что проще сказать "СК не использует DEE" Улыбка
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AbsurdMan
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1183
Москва
Пол: male
Re: Бинаризация и автосегментация (дискуссия)
Ответ #28 - 29.01.2024 :: 14:12:07
 
Когда появится окончательный вариант обработки Гетмановой, прошу оповестить меня об этом в ЛС.
Наверх
 
446581004  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать