OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 
Послать Тему Печать
Создание PDF-книг (Прочитано 50227 раз)
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Создание PDF-книг
21.09.2018 :: 13:35:11
 
Вадим так ничего и не перенёс из общей ветки.

А я таки доковырял создание слоёв без Акробата, спасибо папаВлад с рутрекера. Он там в ветке про обработку сделал сегодня подборку ответов как делать пдф, и упомянул что ирфан умеет делать прозрачный слой. "И тут мне как стало везти!" (с) Чокнутые
Имеется бесплатная для некоммерческого использования программа Pdftk Server. Интерфейс - через командную строку. Так там есть опции background и multibackground. Они накладывают страницы двух пдф попарно. Если верхний пдф был сделан с прозрачностью, то - получается. Во всяком случае, для одностраничного точно. Проблема была изготовить пдф с сохранением маски прозрачности того файла, который я через ирфан получил. Помог пакет imagemagick.
Получилось даже наложить на изготовленный пдф ещё одну картинку, повторным прогоном. Причём она была в 300dpi изготовлена, а чб текст и первая картинка были в 600dpi.
Мне кажется, что лучше делать маску прозрачности не у картинки, как я сделал, а у чб текста. А то текст становится местами полупрозрачным, если у картинки не вполне белый фон. Ирфан, видимо, создаёт 8-битную маску прозрачности.

А вот нормально сжать чб текст пока что не выходит. Втрое-четверо больше, чем дежавю, а то и вшестеро. Нужен кодер с разделяемым словарём. Не могу найти, хотя начинаю догадываться что тоже копать надо хелпы от консольных линуксовых программок. Где-нибудь затесался ключик, который делает pdf или jbig2 с многостраничностью.
Даже FreePic2Pdf от разработчика DjvuToy не помог. jbig2 в нём есть, и lossless, и lossy, но файл получается ненормально крупный.
Наверх
« Последняя редакция: 29.11.2022 :: 22:03:26 от Вадим »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #1 - 21.09.2018 :: 14:48:45
 
bolega писал(а) 21.09.2018 :: 14:20:53:
Вы считаете это чем-то выдающимся?

I'm sorry.
Для себя - конечно Улыбка

Upd:

bolega, вы же уважаете перфекционистский подход. Я всего лишь хочу задействовать заложенные в формате возможности. Не платя адобу или калласу сотни евриков. И обучиться, ведь ни одной книги в pdf я никогда не делал (принтер doPDF в расчёт не беру). Ну а изготовление книг через СК - безальтернативно.
Наверх
« Последняя редакция: 21.09.2018 :: 15:09:22 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 895
Re: Создание PDF-книг
Ответ #2 - 21.09.2018 :: 15:34:51
 
Я думаю, болега тонко намекает, что такое наложение в СК делается.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #3 - 22.09.2018 :: 13:41:36
 
Круглые глаза Зная вашу дотошность - жду результатов. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
cubonore
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Re: Создание PDF-книг
Ответ #4 - 07.10.2018 :: 14:17:04
 
мда, есть же pdfbeads которые прекрасно собирает pdf, можно даже разобрать djvu и из этого собрать такой же pdf.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #5 - 07.10.2018 :: 14:35:29
 
cubonore писал(а) 07.10.2018 :: 14:17:04:
pdfbeads

продемонстрируйте это на практике, запишите ролик. Я вот, сколько ни крутился, пока что качественно изготовить пдф не могу (все эксперименты - под виндой).
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
krestik
Гуру
****
Вне Форума


Всем привет!

Сообщений: 840
Re: Создание PDF-книг
Ответ #6 - 07.10.2018 :: 17:44:46
 
AAW писал(а) 07.10.2018 :: 14:35:29:
..., запишите ролик.


Не дождетесь  Смех Смех Смех Смех Смех Толстые книги вам в руки  Смех Смех Смех
Наверх
 
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #7 - 12.11.2018 :: 11:45:56
 
@
AAW
что то он не отвечает. Тогда я продемонстрирую. Делал не я, но мне подкинули черновую версию скриптика. Автор с хабра пока что его еще доводит до ума.
Наверх
« Последняя редакция: 29.11.2022 :: 22:04:23 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #8 - 12.11.2018 :: 13:47:19
 
@ Skay
Архив с ЯД смогу скачать только вечером.
В какой операционке вы запускали pdfbeads?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #9 - 12.11.2018 :: 14:18:47
 
@
AAW
тот скрипт который мне дали, он под линуксовый баш. Я "баловался" в виртуальной машине.
pdfbeads же написана на ruby, т.е. скриптовая, под виндой интерпритатор имеется.

Если на пальцах, DjVu пересобирается в PDF следующим образом:

нужная страница извлекается с помощью djvused командой save-page-with — чтобы получить полноценный файл (со включёнными пошаренными данными).
Затем дампом извлекается нужная информация — наличие определённых слоёв, общая информация о странице (размеры; разрешение; текстовый слой).
Если нет фронтального слоя или бэкграунда, то скармливаем  pdfbeads, который жмёт в jbig2 c пошаренным словарём на каждые 15 страниц
Если такие слои есть — они извлекаются в файлы с соответствующими суффиксами, и потом с ними «воюет» также pdfbeads.  (предварительно пережав их в jpeg2000 тем же imagemagick )
Если раскрашенная маска — формируем новый djvu, в котором выкинут фон и фронт; преобразуем в индексированный tiff или png; дальше снова работает pdfbeads.

Полностью автоматизированного варианта пока что нет. Ждем Улыбка Если pdfbeads под виндовс нормально будет работать, то сам скрипт потом подогнать будет не проблема Улыбка (хотя на 10ке под эти цели  можно просто установить линукс прямо из магазина приложений).
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #10 - 12.11.2018 :: 14:45:42
 
Skay писал(а) 12.11.2018 :: 14:18:47:
Если pdfbeads под виндовс нормально будет работать

об этом я и говорю. везде есть вялые упоминания, что pdfbeads под виндой не работает корректно.
Мне что, виртуалку ради конверсии ставить Очень довольный

Но я провёл очень мало экспериментов: на работе закрыт интернет, и выкачать какие-либо пакеты для юникс-машины я не могу, даже если и поставлю виртуалку. А все попытки запустить на винде ruby, imagemagick, pdfbeads  и jbig2enc с принесённых файлов, т.е. вручную, наткнулись на мой полный дилетантизм. Как слепой щенок потыкался, понял что я не соображаю вообще ничего, и временно отступился. Дома же на убунту абсолютно нет времени. Это надо дня четыре полностью выделить, по нескольку часов, а не урывки по 20 минут перед сном.

Правильно Dmitry7 написал в смежной ветке: для не-программистов плиз готовую программу.

Нужен подробный алгоритм разворачивания софта и его стыковки. Я в ветке на руборде как-то прочитал как человек мучался с компилированием STA. Ну не дело это!! Должно быть либо в виде готового пакета, либо детальнейшее описание, чтоб "гуманитарий на селе" тоже мог это сделать.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #11 - 12.11.2018 :: 15:36:39
 
@
AAW
можно дома на виртуалке все настроить, какой нибудь минимальный дистр, и взять настроеный образ с собой  Улыбка (Его можно прямо в таком виде и распространять.)
Под линукс распространение гораздо проще. Там один скрипт контейнера даешь, его запускаешь, и он выкачивает и всё складывает именно в том виде как ему кто то когда то указал. После чего можно сразу работать.

На виндовс я поковыряюсь.  Так же интересно попробовать собрать всё это добрно в, чтоб все делать прямо из виндовой консоли.

Цитата:
Я в ветке на руборде как-то прочитал как человек мучался с компилированием STA.
Компиляция порой да, ппц нетривиальная задача. Особенно когда зоопарк всего и вся используется. Начинается то всё на самом деле просто "чтоб не изобретать велосипед возьмем готовое" и потом только в ширину всё разростается.
AAW писал(а) 12.11.2018 :: 14:45:42:
"гуманитарий на селе" тоже мог это сделать.

гуманитарий гуманитарию рознь. Увы. Плюс в PDF Не обязательно перегонять именно тому же человеку что и DjVu делает. Гуманитарий по прежнему может клепать DjVu, а если будет автоматизированный скрипт, там можно чтоб хоть сервер поднять хД.
Поживем увидим, законченой версии скрипта все равно пока что нет, есть только полуавтоматизированый.
Наверх
« Последняя редакция: 29.11.2022 :: 22:05:12 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #12 - 12.11.2018 :: 18:07:55
 
Skay писал(а) 12.11.2018 :: 15:36:39:
можно дома на виртуалке все настроить, какой нибудь минимальный дистр

Именно эта мысль пришла и мне в голову.Работающий "дистрибутив", к которому после развертывания можно подцепить внешний ресурс с djvu.
Но дома у меня времени на это нет. тупик.
Ну, наверное, можно притащить на работу свой ноут... и по gsm-модему... долго только обучаться всему этому. Правда, кусок для Хрестоматии для xyz (про визард дежавю) я закончил, чуть освободилось время. Два месяца с лишним ушло.
А может, вы и сделаете такой дистрибутив? Если разбираетесь.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #13 - 12.11.2018 :: 19:06:10
 
@
AAW
ну я не сильно разбираюсь, но данный скрипт заставлял работать. поищу дистрибутив поменьше чтоб не так много качать/носить, попробуем заставить работать Улыбка а то сейчас физически проблематично залить 20Гб куда либо))
Наверх
 
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #14 - 16.11.2018 :: 17:37:52
 
@
AAW

Нашел видео, где показано в сочетании каких версий программ надо ставить, чтоб заработал pdfbeads - тут пошаговая инструкция. (проверил на работе, работает)
Тут сохраненые дистрибутивы/архивы программ


Тут добавил папку с распакованым PDF. После установки руби и остальных программ, открываем папку в консоли, и набираем  pdfbeads -x8 > out.pdf и он соберет всё в PDF. (цифра 8 - максимальное количество встречаемых уникальных цветов - актуально для переднего слоя, бэкграунд потом подклеивается как есть, т.е. в моем случае он опжат в jp2, можно с нужным качеством пожать)
текстовый слой пока удалил, потому что в самом pdfbeadsгде то не верно отрабатывает тег, и падает. Надо потом найти попраивть.
Наверх
« Последняя редакция: 29.11.2022 :: 22:06:43 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #15 - 16.11.2018 :: 17:42:46
 
@ Skay
Thanks! Обязательно попробую.
Это для win10? ролик в имени её называет.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #16 - 16.11.2018 :: 21:59:53
 
@
AAW
там на примере 10ки, но я смотрел и повторял все - там это не важно. Главное соответствующие версии софта.
Для пережатия бэкграундов в jp2, надо будет поискать версию imagemagick с поддержкой Jpeg2000, а то для прмиера я сейчас руками в фотошопе делал. А так можно будет одной командой через консоль подготовить.

И да, pdfbeads  весь "мусор" который создается в процессе работы, оставляет в папке с исходниками (наврено можно чтоб не делала, но надо разбираться). Из этого примерно видно алгоритм работы (хотя код открыт можно и так всё посмотерть). Она малоцветные файлы - разделяет на отдельные ч/б файлы, в котором отрисовано только соответствующее данном цвету ( в названии добавляется цвет в HEX формате), а потом она уже дальше пережимает и в нужный для PDF формат.

Текстовый слой она принимает в формате hocr - можно достать например из готового djvu. Но надо либо из него вычищать теги на которых она падает (что не верно), а лучше поразбираться с кодом и поправить чтоб обрабатывала корректно.
Наверх
« Последняя редакция: 16.11.2018 :: 22:07:02 от Skay »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #17 - 17.11.2018 :: 15:55:22
 
@ Skay
ролик понял, уже плюс Улыбка
Попробовать ещё не попробовал.
Но ведь gem требует наличия интернета? то есть pdfbeads оттуда тягается? А хотелось в том числе и решения этой задачки. Чтоб пакеты принести на работу.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #18 - 17.11.2018 :: 17:14:43
 
@
AAW
в примере видео да, ставится все с наличием интернета, но как я видел, gem'ы руби можно выкачать как есть и устанавливать руками. Правда и все gem'ы зависимости тоже.
Вроде бы после установки gem'ов , всё находится в папке с руби, и можно копировать как есть, а на машине придется доустановить только imagemagick  и PATH прописать). Но это надо проверять.


Наверх
« Последняя редакция: 29.11.2022 :: 22:07:30 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #19 - 17.11.2018 :: 17:24:50
 
Skay писал(а) 17.11.2018 :: 17:14:43:
Вроде бы после установки gem'ов , всё находится в папке с руби, и можно копировать как есть, а на машине придется доустановить только imagemagick  и PATH прописать). Но это надо проверять.

На этом я тогда и застрял - попытался развернуть папку, а руби gem  не видел. И никакой доки что именно в настройках самого руби надо допрописать, я не обнаружил. Типа, все gemы в сети присутствуют, а больше вам ничего знать и не надо Улыбка
Совершенно верно, я хочу поставить пакеты на машине с интернетом, а потом попытаться приволочь это скопом на другую машину и запустить.
Большое спасибо за отклик.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #20 - 17.11.2018 :: 19:45:02
 
Всё необходимое для установки:
Инструкция по установке ruby 1.9.3 и сопутствующего ПО:
Спойлер:

Создаем папку "r" (для примера) на диске С, куда будем устанавливать всё необходимое ПО. Нельзя чтоб в пути были пробелы и/или русские буквы.
Открываем папку с желаемой версией и разрядностью.[/url]
Первым делом устанавливаем ruby, запустив rubyinstaller, со всеми опциями которые можно выбрать. Путь установки
Code:
C:\r\Ruby 


Если в папке имеется папка "lib", то копируем ее в "C:\r\Ruby" с заменой (сертификаты для работы с сетью)
Чтоб провериь что установилась и работает, открываем консоль, и выполняем команду
Code:
ruby -v 


Для 1.9.3 ответ будет:
Цитата:
ruby 1.9.3p551 (2014-11-13) [i386-mingw32]

Для 2.3.0 ответ будет:
Цитата:
ruby 2.3.0p0 (2015-12-25 revision 53290) [x64-mingw32]

Распаковываем DevKit из этой же папки в
Code:
C:\r\RubyDevKit 


Делаем чтоб руби видела установленый DevKit, для:
Открываем консоль, переходим в папку с DevKit (набираем команду в консоли):
Code:
cd C:\r\RubyDevKit 


и выполняем последовательно команды:
Code:
ruby dk.rb init 


Code:
ruby dk.rb install 



Установка необходимого ПО:
Спойлер:

(все необходимое находится по ссылкее в папке pdfbeads)
Устанавливаем ImageMagick, разрядность выбираем такую же как и установленная у нас ruby.
Путь для установки:
Code:
C:\r\ImageMagick 


В процессе обязательно должны быть выбраны опции
Цитата:
Add application directory to your system path
Install development headers and libraries for C and C++
Install ImageMagickObject OLE Control for VBscript, Visual Basic, and WSH

Для проверки установки, в консоли выполняем команду:
Code:
convert -version 


Ответ будет:
Цитата:
Version: ImageMagick 6.9.8-9 Q16 x64 2017-06-03
Copyright: Copyright (C) 1999-2015 ImageMagick Studio LLC
License:
Visual C++: 180040629
Features: Cipher DPC Modules OpenMP
Delegates (built-in): bzlib cairo flif freetype jng jp2 jpeg lcms lqr openexr pangocairo png ps rsvg tiff webp xml zlib

Распаковываем содержимое jbig2enc-0.28-leptonica-1.68-win32-bin.zip в папку
Code:
C:\r\Jbig2 


Чтоб энкодер был доступен из консоли, необходимо добавить его в переменную окружения.
Для этого открываем консоль и набираем команду:
Code:
setx Path "C:\r\Jbig2;%PATH%" 


Если данная команда недоступна, смотрим в гугле как это сделать.
Для проверки установки, в консоли выполняем команду:
Code:
jbig2 -V 


Ответ должен быть:
Цитата:
jbig2enc 0.28


Установка pdfbeads (без интернета):
Спойлер:

(все необходимое находится по ссылке в папке pdfbeads / gems)
В консоли, переходим в папку "!All"
чтоб установить все gem'ы из нее, набираем команду:
Code:
gem install --force --local *.gem 


Переходим в консоли на уровень вверх
Code:
cd .. 


Открываем папку соответствующую версии установленой ruby, и так же устанавливаем все gem'ы
Code:
gem install --force --local *.gem 


Возвращаемся в папку gems:
Code:
cd .. 


устанавливаем rmagick:
Code:
gem install --local rmagick-2.16.0.gem -- -- with-opt-dir-C:\r\ImageMagick\ 


Устанавливаем pdfbeads:
Code:
gem install --local pdfbeads-*.gem 



Установка pdfbeads (с интернетом):
Спойлер:

В консоли последовательно выполняем команды:
Если ruby версии 1.9.3:
Code:
gem install rmagick -- -- with-opt-dir-c:\Other\p\ImageMagick\ 


Code:
gem install nokogiri -v 1.5.10 


Code:
gem install ttfunk -v 1.4.0 


Если ruby версии 2.3.0:
Code:
gem install rmagick -- -- with-opt-dir-c:\Other\p\ImageMagick\ 


Code:
gem install nokogiri 


Устанавливаем pdfbeads:
Code:
gem install pdfbeads 


На rubygem может быть доступна не актуальная версия pdfbeads .

Исходники актуальной версии всегда можно скачать с гитхаб

Наверх
« Последняя редакция: 29.11.2022 :: 22:11:40 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #21 - 18.11.2018 :: 18:40:06
 
Skay писал(а) 17.11.2018 :: 19:45:02:
Всё. Можно пользоваться.

Дома - работает!

На вашем примере почему-то пдфка собралась вдвое меньшего размера:
что весьма и весьма странно.

Индексный примерчик (из ДЭ) тоже собрался, только он почему-то в полтора раза больше чем вариант от slava_kry, собранный ещё позавчера в ИнДезе.
70кб
42кб

Но, главное, работает. Единственное что - на WinXP команды setx нет Улыбка Ручками PATH прописал.

Я даже попробовал словарь jbig2 увеличить, тоже вроде как работает. При задании 100-страничного на 144-страничной пачке тиффов размер уменьшился от 2,8 до 2,0 Мб. (правда дежавю на этих тиффах - 1,4Мб). Наверное из-за того что jbig2 lossless.

В общем, класс!
Наверх
« Последняя редакция: 29.11.2022 :: 22:12:37 от Вадим »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #22 - 18.11.2018 :: 20:51:05
 
AAW писал(а) 18.11.2018 :: 18:40:06:
На вашем примере почему-то пдфка собралась вдвое меньшего размера
что весьма и весьма странно.

всё нормально. Тот что я присылал как результат, это делал не я. А в моем случае я чуть сильнее пережал в jp2 бэкграунд, основной вес от него там.
AAW писал(а) 18.11.2018 :: 18:40:06:
Индексный примерчик (из ДЭ) тоже собрался, только он почему-то в полтора раза больше чем вариант от slava_kry, собранный ещё позавчера в ИнДезе.

Вот тут я не подскажу. Все же для ИнДиза пдф родной, может заоптимизировано что то Улыбка Было бы интересно сравнить на бОльшем количестве страниц Улыбка
На работе будет время, попытаюсь поразбираться с интеграцией hocr, поищу место на котором падает.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #23 - 18.11.2018 :: 21:01:17
 
AAW писал(а) 18.11.2018 :: 18:40:06:
Я даже попробовал словарь jbig2 увеличить, тоже вроде как работает.

хе-хе. с 16й по 100ю - чистые листы.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #24 - 18.11.2018 :: 21:14:22
 
AAW писал(а) 18.11.2018 :: 18:40:06:
Индексный примерчик (из ДЭ) тоже собрался, только он почему-то в полтора раза больше чем вариант от slava_kry, собранный ещё позавчера в ИнДезе.

а в каком виде были исходные файлы? в моем примере у одноцветного и малоцветного - разные форматы. tiff - ч/б, малоцветный - в индексированный tiff/png.
а то он мог tiff как есть в контейнер засунуть. при открытии как разх из ИнДиз видно как поцветно прогружается, а из pdfbeads - разом все. Отсюда может и разница в весе.
Наверх
« Последняя редакция: 18.11.2018 :: 21:33:40 от Skay »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #25 - 18.11.2018 :: 21:39:38
 
но цвета же он сляпал как вы описали - из отдельных файликов с номерами цветов.
файл
Наверх
« Последняя редакция: 29.11.2022 :: 22:13:04 от Вадим »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #26 - 18.11.2018 :: 22:03:10
 
@
AAW

да, предположение оказалось не верным. Результат в обоих случаях оказался одинаковый.

UPD: вроде починил поддержку hocr
Наверх
« Последняя редакция: 19.11.2018 :: 11:07:00 от Skay »  
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #27 - 19.11.2018 :: 12:07:25
 
@
AAW

В файле ..\Ruby193\lib\ruby\gems\1.9.1\gems\pdfbeads-1.1.1\lib\pdfbeads\pdfbuilder.rb
надо заменить строку
Code:
c_str << getHOCRText( hocr,pheight,72.0/xres,72.0/yres,encodings ) 


на
Code:
c_str << getHOCRText( hocr,pheight,72.0/p.x_res,72.0/p.y_res,encodings ) 


К своему примеру на яд, докинул hocr-файлы выдранные из DjVu

А еще ..\Ruby193\lib\ruby\gems\1.9.1\gems\pdfbeads-1.1.1\lib\pdfbeads\pdfpage.rb
заменить
Code:
self.define( 'JP2','rate',015625 ) 


на
Code:
self.define( 'JP2','rate',0.0078125 ) 


Компрессия у бэкграунда чуть сильнее должна быть)
Наверх
« Последняя редакция: 29.11.2022 :: 22:14:04 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #28 - 19.11.2018 :: 12:16:29
 
Thanks.

На работе тоже поставилось без особых проблем, на семёрку.

Странно, но 20 и 60 чёрно-белых листов, сделанные на работе, просматриваются в акробатридере версии 9.5 нормально. То ли у меня дома акробатридер7 глючит, то ли сборка всё же зависит от операционки. Хотя дома я по умолчанию настроил просмотр на PDF-Xchange Viewer, а он казал чистые листы. И в Сети есть пара упоминаний, что после кодера jbig2 от Адама Лэнгли файлики частенько глючные выходят. В общем, рано выпускать в жизнь книги из-под pdfbeads. Надо массу тестов провести, включая огромные красочные энциклопедии. Да и методика проверки качества не просматривается. Но сам инструмент приятный - положил пачку тиффов, кнопку ткнул и подождал.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #29 - 19.11.2018 :: 12:27:05
 
@
AAW
от операционки там вроде зависить нечему.
AAW писал(а) 18.11.2018 :: 18:40:06:
Я даже попробовал словарь jbig2 увеличить, тоже вроде как работает. При задании 100-страничного на 144-страничной пачке тиффов размер уменьшился от 2,8 до 2,0 Мб. (правда дежавю на этих тиффах - 1,4Мб). Наверное из-за того что jbig2 lossless.

может все же не стоит менять размер словаря?
можно  проблемный файлик вместе с исходными посмотреть? (и DjVu заодно, порпобую его разобрать и собрать потом)
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #30 - 19.11.2018 :: 12:40:09
 
Skay писал(а) 19.11.2018 :: 12:27:05:
может все же не стоит менять размер словаря?

встречный вопрос: а зачем тогда вообще pdfbeads нужен? Я затеял всю возню с изготовлением pdf ради двух тем: а) научиться делать пдфки бесплатными программами б) изготовленные пдфки должны быть сжаты предельно эффективно (то есть управляемо по качеству). Жуть как меня бесят эти многомегабайтные монстры в либгене и твирпксе, полученные тупой конвертацией из старых дежавюшек, с увеличением размеров раза в четыре.

Файлы дома, вечером выложу.
Ещё вчера хотел, да времени не было: перестарался с планами по сканированию, двенадцать книг за день не осилил Улыбка Дело даже не в том, что сканить некогда было - сетевой сканер медленно передаёт со своего диска на комп. Пришлось ещё утром час потратить. Как говорили в рекламе "ставьте перед собой реальные цели".
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #31 - 19.11.2018 :: 13:13:55
 
Skay писал(а) 18.11.2018 :: 21:14:22:
а в каком виде были исходные файлы?

Это было 3 битмапа своих цветов, соединённые и окрашенные в ИнДезе. Эта фича идёт с давних времён, что битовые картинки можно красить в любой цвет и они прозрачны по белому цвету.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #32 - 19.11.2018 :: 14:00:09
 
@
slava_kry
да тут примерно так же все делается, возможно чисто в кодере разница. все же jbig2 тут самописное. Вечером попробую пересобрать полностью Электронику шаг за шагом, посмотрим что по размеру/качеству получится.

AAW писал(а) 19.11.2018 :: 12:40:09:
встречный вопрос: а зачем тогда вообще pdfbeads нужен? Я затеял всю возню с изготовлением pdf ради двух тем: а) научиться делать пдфки бесплатными программами б) изготовленные пдфки должны быть сжаты предельно эффективно (то есть управляемо по качеству). Жуть как меня бесят эти многомегабайтные монстры в либгене и твирпксе, полученные тупой конвертацией из старых дежавюшек, с увеличением размеров раза в четыре.

Даже сейчас он дает результаты лучше чем то тупое конвертированное, которое по сути чаще всего тупо картинка пожатая в контейнере pdf
AAW писал(а) 19.11.2018 :: 12:40:09:
Ещё вчера хотел, да времени не было: перестарался с планами по сканированию, двенадцать книг за день не осилил

ух.. я со своим CanonScanLide страдаю  Смех не беру что то другое потому что редко уже сканю. Но если надо что то сканировать - в цвете 2 минуты проход кортеки туда обратно %)
Наверх
« Последняя редакция: 29.11.2022 :: 22:52:52 от Вадим »  
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #33 - 19.11.2018 :: 14:23:55
 
И так, взял файл
[quote author=727264330 link=1537526111/26#26 date=1542566378]но цвета же он сляпал как вы описали - из отдельных файликов с номерами цветов.
файл
Закодировал его в djvu, профиль экстримальный малоцветный - 37кб
Извлек из него данные , индексированный png - 216kb
Закодировал его с помощью pdfbeads - 36,6кб

Такие вот пироги. Обновил на яд примеры
Наверх
« Последняя редакция: 29.11.2022 :: 22:53:35 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #34 - 19.11.2018 :: 14:41:23
 
Skay писал(а) 19.11.2018 :: 14:23:55:
индексированный png - 216kb

то есть вы намекаете, что вся тонкость - в исходнике?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #35 - 19.11.2018 :: 14:47:39
 
@
AAW
Мне кажется кодер jbig2 не совершенен, и не может идеально проглотить исходник. А вот если пропустить через DjVu - то ему проще.
Получается исходники -> кодируем в DjVu -> разбираем, собираем в PDF. (конвертируем т.е.)

Вот чисто выходные данные по исходному, и извлеченному из DjVu
Наверх
« Последняя редакция: 29.11.2022 :: 22:53:58 от Вадим »  
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #36 - 19.11.2018 :: 15:02:04
 
@
AAW
в исходном белый не совсем белый. source.#FCFEFC
Вот откуда вес.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #37 - 19.11.2018 :: 17:30:07
 
Skay писал(а) 19.11.2018 :: 12:27:05:
можно  проблемный файлик вместе с исходными посмотреть?
Наверх
« Последняя редакция: 29.11.2022 :: 22:54:17 от Вадим »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #38 - 19.11.2018 :: 19:49:01
 
@
AAW
попробовал На исходных tiff-файлах,
словарь на каждые 15 страниц - 2.62Мб,
словарь на 100 - 2.09Мб
на tiff'ы было много каких то странных ошибок в логе, поэтому из djvu сохранил страницы как Png, собрал.
15  -  1.8Мб
100 - 1.5Мб (что достаточно близко к DjVu)
144 - 1.45Мб
При этом в случае из Png - словари были в 2 раза меньше весом.
Из ваших pdf со словарем на 100 - с аналогичными симптомами, не показывал страницы после 100, причем местами были какие то рандомные пачки символов.
Смог повторить результат что часть страниц пустые: происходит если не удалить созданные временные файлы *.jbig2 и *.sym (скорее всего дело только в словарях, наверно цепляет всё по расширению не глядя и получается каша из словарей).
Наверх
« Последняя редакция: 19.11.2018 :: 19:58:19 от Skay »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #39 - 20.11.2018 :: 06:47:45
 
Skay писал(а) 19.11.2018 :: 14:47:39:
Получается исходники -> кодируем в DjVu -> разбираем, собираем в PDF. (конвертируем т.е.)

Примерно то же я делал для дежавюирования куска из БСЭ-2 в 1200. Штатные профили DEE жмут очень плохо. Видимо, неоптимально настроены под 1200. Пришлось заюзать cjb2 из djvulibre. Подобрать уровень сжатия, чтоб ничего не терялось, прогнать tiff->djvu->tiff, а уж эти приглаженные тиффы закодить в DEE. 72-75кб на текстовую страницу вышло, а не то, что у krestik.

Skay писал(а) 19.11.2018 :: 14:00:09:
попробую пересобрать полностью Электронику шаг за шагом

не вышло?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #40 - 20.11.2018 :: 14:25:50
 
@
AAW
ситуация повторилась. На исходные сканы из SK много ошибок в логе, ну и как я ни кодировал руками исходники - получается оч тяжелый PDF
Разобрал собранный DjVu (20,1 МБ), собрал pdf  ->18,9 МБ
Code:
pdfbeads -p 100 -x25 > out.pdf 



Не всё так радужно как хотелось бы. Мне кажется он исходники + то что разбил, сует в PDF. Не понятно только почему, если это так.%) буду думать, буду пробовать.
Наверх
« Последняя редакция: 29.11.2022 :: 22:55:42 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #41 - 20.11.2018 :: 18:57:41
 
Skay писал(а) 20.11.2018 :: 14:25:50:
Не всё так радужно как хотелось бы

на обложке эффект инь Очень довольный
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг
Ответ #42 - 25.11.2018 :: 09:01:35
 
AAW писал(а) 20.11.2018 :: 18:57:41:
на обложке эффект инь Очень довольный

На обложках еще и фамилия автора разная - то Сворень (правильно), то СворОнь. Обложка не совпадает по размерам с страницами, зачем-то оставлена ненужная реклама, да еще и в разворот, и самое главное - косяк в определении dpi всех страниц без исключения, не могут они быть размером 1265х1786 мм, это больше чем метр на метр! Гляжу я на все это с грустью, годы идут за годами, десятилетия за десятилетиями, а уровень знаний и умений книгоделов как был, так и остался. Никакие статьи, руководства, форумы и все прочее не работают от слова "совсем". Пережевывается одно и то же, причем, без шансов что-то улучшить. Печально...
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #43 - 25.11.2018 :: 09:33:45
 
GMAP писал(а) 25.11.2018 :: 09:01:35:
уровень знаний и умений книгоделов как был, так и остался

Книгоделы всякий раз новые. Кто надолго задержался, тот всё-таки выходит на уровень профессионала.
Что до ошибок - так ни один вьювер не выдаёт при открытии окно "судя по параметрам файла, книга сделана отвратительно" Улыбка
База критериев нужна, однозначно. Хотя бы как публичный эталон, к которому каждый - если захочет - сможет приложить свою поделку. Сейчас все наработки профи умирают внутри головы этого профи.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #44 - 25.11.2018 :: 10:31:33
 
@
GMAP
про pdf Или djvu?
GMAP писал(а) 25.11.2018 :: 09:01:35:
Обложка не совпадает по размерам с страницами

это мое личное желание и мне плевать кто как считает. Я хотел чтоб был корешок, отсюда и разница. В нармальных просмотрщиках есть "показать первую страницу отдельно". в 3 из 3 которыми пользовался - это так.
GMAP писал(а) 25.11.2018 :: 09:01:35:
зачем-то оставлена ненужная реклама

это спорный вопрос, который поднимался уже на рутрекере, книга оставлена "как была".
GMAP писал(а) 25.11.2018 :: 09:01:35:
да еще и в разворот

опять же личное желание. Меня его наличие не напрягает.
GMAP писал(а) 25.11.2018 :: 09:01:35:
и самое главное - косяк в определении dpi всех

это точно претензия к PDF, после извлечения страниц из DjVu Там нет никаких данных о DPI. ну и PDF пока не для паблика, а для "поиграться".
GMAP писал(а) 25.11.2018 :: 09:01:35:
а уровень знаний и умений книгоделов как был, так и остался. Никакие статьи, руководства, форумы и все прочее не работают от слова "совсем".

а это совсем голословное, я помню качество делаемых книг 10 лет назад, и сейчас. и разница существенна. Малоцветку делать не загоняя в бэкграунд начали так совсем недавно, грубо говоря Ну а так да, конечно же, раньше трава была зеленее лол.
AAW писал(а) 25.11.2018 :: 09:33:45:
Что до ошибок - так ни один вьювер не выдаёт при открытии окно "судя по параметрам файла, книга сделана отвратительно"

И не должен, вьювер должен показать любой самый корявый файл. Даже битый. Это его самоцель, не валидация.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #45 - 25.11.2018 :: 10:38:57
 
@
GMAP
Может притормозите!? Пока просто обтачивают технологию и возможности использования
бесплатных
программ.
Я в таком формате совсем не соображаю. Улыбка

GMAP писал(а) 25.11.2018 :: 09:01:35:
Гляжу я на все это с грустью, годы идут за годами, десятилетия за десятилетиями, а уровень знаний и умений книгоделов как был, так и остался. Никакие статьи, руководства, форумы и все прочее не работают от слова "совсем". Пережевывается одно и то же, причем, без шансов что-то улучшить. Печально...

А может не стоит смотреть, а просто делать...
Хочется вот мне ролик записать - сажусь записываю. Пообещал AAW сделать ДЭ полностью - сижу делаю. Не нравится мне дежавю (и похоже это взаимно), но всё равно стараюсь сделать и в этом формате...

Просто делайте, если есть желание, не нужно по сторонам смотреть. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #46 - 25.11.2018 :: 14:46:55
 
Skay писал(а) 25.11.2018 :: 10:31:33:
ну и PDF пока не для паблика, а для "поиграться".

Есть идеи, как сопоставлять результат кодирования с исходником? Про beyond я помню, но косяк с "инь" на цветной букве, да ещё такого огромного размера, заставил меня задуматься: а что вообще следует проверять? Может, тестовый комплект какой составить? Или просто плюнуть, пусть обработчики здесь жалуются на фактические косяки?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #47 - 25.11.2018 :: 16:41:25
 
@
AAW

эта проблема всплывает чисто с jbig2enc, если указать другой кодер для маски (-m g4), то проблемы "инь" нету. Возможно jbig2 не подходит именно для таких вот больших букв. В тексте я вроде проблемы "инь" не разглядел больше, кроме фамилии на корешке.
Поставил Свореня пересобираться с опцией g4, посмотрим на различие в весе/качестве.
Наверх
 
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #48 - 25.11.2018 :: 16:54:27
 
Skay писал(а) 25.11.2018 :: 16:41:25:
Поставил Свореня пересобираться с опцией g4, посмотрим на различие в весе/качестве.

Совсем не вариант, получается сильно больше размер.

В pdfpage.rb в строке 479 явно указываются ключи с которыми запускается кодер
Code:
IO.popen("jbig2 -s -p " << toConvert.join(' ') ) do |f| 


можно поэксперементировать, справка по jbig2

UPD:
Цитата:
-t <threshold>: sets the fraction of pixels which have to match in order for two symbols to be classed the same. This isn't strictly true, as there are other tests as well, but increasing this will generally increase the number of symbol classes.

добавляя этот параметр получается победить эффект "инь". По умолчанию всегда используется значение 0.85, я кодировал со значемнием 0.90
надо будет вытащить эту настроку прямо в pdfbeads. На неделе постараюсь.
Наверх
« Последняя редакция: 29.11.2022 :: 22:57:07 от Вадим »  
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #49 - 29.11.2018 :: 14:07:43
 
@
AAW
Добавил логирование + все выше правки, в виде gem'a: ядиск,

Так же теперь работает на ruby от 1.9.3 до 2.3 включительно (под версию выше, нет рабочего rmagick, с новым DevKit не собирается).

Логирование будет работать если имя PDF файла будет задаваться через ключ -o. В противном случае -l / --log FILE.ext - будет игнорироваться.
Code:
pdfbeads -x8 -F 0.90 -l 1.log -o out.pdf 

Наверх
« Последняя редакция: 29.11.2022 :: 22:57:42 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #50 - 29.11.2018 :: 14:25:47
 
Угумс.
А я никак додумать методику проверки не могу.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #51 - 19.12.2018 :: 17:14:01
 
у jbig2 енкодера есть еще такие параметры
Code:
  -b <basename>: output file root name when using symbol coding
  -d --duplicate-line-removal: use TPGD in generic region coder
  -p --pdf: produce PDF ready data
  -s --symbol-mode: use text region, not generic coder
  -t <threshold>: set classification threshold for symbol coder (def: 0.85)
  -T <bw threshold>: set 1 bpp threshold (def: 188)
  -r --refine: use refinement (requires -s: lossless)
  -O <outfile>: dump thresholded image as PNG
  -2: upsample 2x before thresholding
  -4: upsample 4x before thresholding
  -S: remove images from mixed input and save separately
  -j --jpeg-output: write images from mixed input as JPEG
  -a --auto-thresh: use automatic thresholding in symbol encoder
  -D --dpi: force dpi
  --no-hash: disables use of hash function for automatic thresholding
  -V --version: version info
  -v: be verbose
 


Если что то из них интересно попробовать - можно руками докинуть параметр.
Наверх
« Последняя редакция: 29.11.2022 :: 22:58:19 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #52 - 19.12.2018 :: 17:43:55
 
хотя бы просто тестов набрать от разных обработчиков и с разным материалом.
я сегодня ковырял БСЭ-2, 18й том от krestik. пытался научиться переводить в pdf. Дошёл только до чб-слоя. Подтверждаю, что сжатие 85% перепутывает буквы. Даже на 1200дпи. Значит на 600 всё будет хуже. А картинки за полдня пережать так и не успел, декодер в тифф медленный (DSM). 200 картинок конвертировалось более трёх часов.
Периодическую печать от Dmitry7 пробовал пережать - на ура. Но этого мало.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #53 - 20.12.2018 :: 09:15:11
 
на tiff картах из БСЭ в 600дпи скрипт пишет про нехватку памяти. Те же карты в джипегах - кушает. Наверное, imagemagick виноват. А может метод "flate" такие громадины не переваривает.

куда пишется лог?? в папке с картинками его нет.

любопытное поведение: при повторном запуске компрессия файлов JBIG2 проходит очень быстро только если комплект файлов *.jbig2 не изменился. Я грохнул пяток - и создание словаря пошло с нуля, т.е. очень неторопливо. Видимо, всё-таки за правило надо брать полное удаление предыдущего мусора. В папке д.б. только первичные файлы, предназначенные для сжатия.

Если имеется только файл .bg., то он в пдф не попадает. Нужна пара.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #54 - 20.12.2018 :: 10:05:17
 
AAW писал(а) 20.12.2018 :: 09:15:11:
куда пишется лог?? в папке с картинками его нет.

он не автоматом создается. надо указать
Code:
--log 1.log 


и тогда появится файл 1.log прямо там откуда запускается.
AAW писал(а) 20.12.2018 :: 09:15:11:
Если имеется только файл .bg., то он в пдф не попадает. Нужна пара.

Все .bg. Это дополнительные файлы. PDF собирается из файлов без дополнительных префиксов, а остальное потом уже подклеивается. Так что надо просто учитывать такое поведение. Тут логику править сложно. Там отдельные методы: один в цикле сначало все что без префиксов собирает в один документ, а остальные уже в готовый документ докидывают остальное.AAW писал(а) 20.12.2018 :: 09:15:11:
на tiff картах из БСЭ в 600дпи скрипт пишет про нехватку памяти. Те же карты в джипегах - кушает. Наверное, imagemagick виноват. А может метод "flate" такие громадины не переваривает.

да, надо смотреть кто именно ругается. Может удастся подкрутить настройки. Может потому цветные лучше попробовать в png
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #55 - 20.12.2018 :: 10:27:14
 
нет, по ключу "--log" скрипт ругается. А по ключу "-l" ничего не пишет.

В целом, конечно, если попрыгать по граблям, собрать pdf можно Улыбка Вопрос, корректные ли они будут. Кстати, действительно, Chrome необыкновенно шустро листает слоёные пдфки с jpg2000. Намного лучше вьюверов, и плавнее.

Но - в этом "целом" - задачка не для слабонервных, особенно при попытке сконвертировать djvu в pdf. Из-под СК готовые комплекты передников и задников, наверное, будут без каких-либо заморочек собираться, если малоцветные зоны слить с текстом, а фотки отправить в sep. К полноцветным листкам, типа обложек, ещё чистые передники придётся изготовить, добавив к задникам суффикс. Масса ручной работы по переименованию и конвертации в jpg. Сборка пдф в СК - конечно, лучше. Можно и сжатие настроить индивидуально.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #56 - 20.12.2018 :: 11:53:01
 
AAW писал(а) 20.12.2018 :: 10:27:14:
нет, по ключу "--log" скрипт ругается. А по ключу "-l" ничего не пишет.

так. давайте ка переустановим pdfbeads

gem uninstall pdfbeads
gem install --local pdfbeads-1.1.2.gem

AAW писал(а) 20.12.2018 :: 10:27:14:
Из-под СК готовые комплекты передников и задников, наверное, будут без каких-либо заморочек собираться, если малоцветные зоны слить с текстом, а фотки отправить в sep.

Вот не уверен до конца Печаль у меня в логе после него было много мусора. Но может частный случай.
AAW писал(а) 20.12.2018 :: 10:27:14:
К полноцветным листкам, типа обложек, ещё чистые передники придётся изготовить, добавив к задникам суффикс.

В Ruby23-x64\lib\ruby\gems\2.3.0\gems\pdfbeads-1.1.2\doc\pdfbeads.ru.html
есть
Цитата:
разделение «смешанных» файлов, созданных программой ScanTailor, на текстовый и картиночный слои;
AAW писал(а) 20.12.2018 :: 10:27:14:
Масса ручной работы по переименованию и конвертации в jpg.

у нас же стоит imagemagick и ruby. делаем скрипт типа
Code:
Dir.glob("*.bg.png").each do|f|
  new_file_name = File.basename(f, ".png")
  cmd = "convert -quality \"50\" \"#{f}\" \"#{new_file_name}.jp2\""
  puts cmd
  IO.popen(cmd)do |f|
    out = f.gets
    puts out unless out.nil?
  end
end
 


и он перегоняет все .bg.png в .bg.jp2 (ну или любой другой формат который укажем в строке).
Почти вся ручная работа автоматизируется тем скриптом (при наличии DjVu), но его надо еще тестировать и тестировать.
Наверх
« Последняя редакция: 29.11.2022 :: 22:59:09 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #57 - 21.12.2018 :: 12:33:32
 
Skay
OK, лог теперь пишется.

Задействовал ключ --force-resolution, чтобы пдфка не была огроменного размера при открытии. Появился вопрос: а как себя поведут при этом разноформатные листки в книге? Я читал в разных местах намёки, что дпи внутри пдф нигде не пишется. Но что-то же пишется, какая-то связь с СИ должна быть. С дежавюшками всё просто, пиксели в штуках и прописанный дпи каждой страницы как переднего так и заднего слоя. А при чтении и, главное, печати пдф что необходимо предусмотреть? Типичные грабли - когда рекомендуют "масштаб по ширине", это не подходит для любых нестандартных вклеек. Допустим, геологический разрез, полоска бумаги длиной в три-четыре книжных ширины. А то и в восемь. Её "по ширине" печатать нельзя.

По вашей правке поста 21: добавьте результаты проверки правильности установки (что должен юзер увидеть по ruby -v и т.п.).
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 895
Re: Создание PDF-книг
Ответ #58 - 21.12.2018 :: 12:53:35
 
Цитата:
что дпи внутри пдф нигде не пишется. Но что-то же пишется


Насколько я знаю, пишется физический размер картинки в сантиметрах или дюймах. Также имеются её пиксельные размеры. Соответственно дпи получается расчётным путём.
Наверх
 
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #59 - 21.12.2018 :: 12:56:59
 
AAW писал(а) 21.12.2018 :: 12:33:32:
Задействовал ключ --force-resolution

ну я вот собирал Свореня, обложка у меня там другого размера, ничего вроде не уплыло.
Я тоже что то такое читал, как я понял DPI важно только для энкодера, чтоб он корректнее работал с файлами. Но тоже не уверен. Еще поле для экспериментов
AAW писал(а) 21.12.2018 :: 12:33:32:
А при чтении и, главное, печати пдф что необходимо предусмотреть?

Вот тут я не знаю что с вклейками делать. Они и нумерацию страниц сбивают в т.ч. Их по идее надо бы печатать отдельно, выносить в конец, а в тексте ссылаться. Но в той же Электроника шаг за шагом, сделали так, что идет нумерация, текст на странице обрывается, продолжается на вклейке, вклейка не учитывается в нумерации, а потом нумерация продолжается. Т.е. вклейка вроде вклейка, но перемещать ее никуда нельзя.
...
Под печать такое надо готовить отдельно, полюбому Печаль
AAW писал(а) 21.12.2018 :: 12:33:32:
По вашей правке поста 21: добавьте результаты проверки правильности установки (что должен юзер увидеть по ruby -v и т.п.).

Поправил. Там так то не столько важен вариант ответа, сколько что не будет ошибки.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #60 - 21.12.2018 :: 14:31:44
 
Skay писал(а) 21.12.2018 :: 12:56:59:
Они и нумерацию страниц сбивают в т.ч.

Это нормально для старых книг, т.к. вкладки готовились отдельно от блока и вставлялись относительно получившейся вёрстки, потому нумерация их и пропускает.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #61 - 24.12.2018 :: 14:22:00
 
Code:
 -T, --text-pdf PDFFILE 


не переносит текстовый слой из одного файла в другой, как я думал, а использует текстовый слой из PDF во время сборки из сканов.
Т.е. кейс практически как в DjVu - распознали сканы в файнридере, сохранили в PDF. А потом при сборке сканов в pdfbeads добавляем данный параметр с названием файла.
AAW писал(а) 20.12.2018 :: 09:15:11:
Видимо, всё-таки за правило надо брать полное удаление предыдущего мусора. В папке д.б. только первичные файлы, предназначенные для сжатия.

попробуйте с ключем
Code:
 -f, --force-update       Always write subsidiary image files even if a file
                           with the same name is already found on the disk 


slava_kry писал(а) 21.12.2018 :: 14:31:44:
Это нормально для старых книг, т.к. вкладки готовились отдельно от блока и вставлялись относительно получившейся вёрстки, потому нумерация их и пропускает.

да я понимаю это, но перфекционист внутри страдает, что там есть текст относящийся к страницам, но это вклейка.
Наверх
« Последняя редакция: 24.12.2018 :: 14:44:52 от Skay »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #62 - 29.12.2018 :: 19:08:29
 
Понял я сегодня, как совместить фичи СК с JBIG2. Даже не танцы с бубном, а вчистую извращение, но работает, собрал так пдфку в обед.
Надо при генерации pdf заменить страницы с чб текстом на чистые. Тогда СК всё аккуратно сожмёт, как ему указано. А чб странички пропустить через pdfbeads. Затем сложить два файла, пустив чб текст поверху, он с прозрачностью из pdfbeads выходит.
Если малоцветка есть - её надо слить с текстом, а зоны в out-задании заблокировать. Это не проверял, но должно сработать. Сегодня тестил новый СК, пришлось по-полной заюзать свойство Group зон, чтобы им настройки размножать. Это можно и при слиянии применить.
Изврат, ручной внимательный труд, зато полноцветные картинки на одной странице можно  индивидуально жать так, как требуется.
Вроде всё, теоретически задачу изготовления pdf бесплатными прогами я решил, спасибо bolega и Skay за программы. Осталось тестить.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #63 - 30.12.2018 :: 22:16:24
 
@
AAW
А можно чуть подробностей про весь кейс использования. Что именно жать СК пришлось?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #64 - 31.12.2018 :: 05:14:34
 
Skay писал(а) 30.12.2018 :: 22:16:24:
Что именно жать СК пришлось?

Картинки.
Представьте, что у вас на одной странице имеется пяток картинок, которые надо пожать с разным качеством (компрессией). В pdfbeads такое в принципе сделать нельзя, он исходит из заднего слоя djvu, который "одна штука". В этом слое при изготовлении djvu придётся выбирать компрессию согласно сохранности всех картинок, то есть сжатие будет не вполне оптимальным. А в pdf объектов на странице может быть и много, каждый со своими параметрами. Получается, СК я тут задействовал как примитивный ИнДизайн, верстальную программу. В нём ведь всё уже готово, объекты размечены, расставлены.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #65 - 31.12.2018 :: 13:23:17
 
я не спец, по-моему, кодировщик (экзешник) из папки "jbig2" вызывается через imagemagick, а тот уже - из pdfbeads.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #66 - 05.01.2019 :: 15:56:55
 
Попробовал на практике свои соображения насчёт "скрещивания ежа с ужом".
Обдумав как и что, решил себе ещё жизнь упростить: в СК можно при создании суб-таска указать чтоб вместо выходных файлов выдавались пустые листки того же размера. И всплыл минимум один подводный камень: обложки вышли чистыми белыми, но с цветностью 8бит. И pdfbeads логично стал их преобразовывать в jp2 и делать пару с ".bg.". Соответственно, этот белый листок, его передняя часть, с суффиксом "black", перекрыл обложку из background-слоя. А скорее это задняя часть перекрыла. Пришлось вручную ирфаном понизить цветовое пространство до битмапа, TIFF Fax G4.
В остальном работает, как предполагалось. Изготовил два субтаска, в одном, полноценном, малоцветные зоны слил с текстом и отдал текст в pdfbeads, а во второй ветке с чистыми страницами восстановил обложки из оригинальной папки, заблокировал малоцветку и изготовил задник для pdf (фотки СК выдал в субтаск без изменений). Почти нет ручной работы по изготовлению чистых листков нужного формата. Во всяком случае, для простой книги (Ширяев, Грозненская область).
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #67 - 14.01.2019 :: 12:25:53
 
bolega писал(а) 31.12.2018 :: 09:26:24:
А в составе pdfbeads есть кодировщик jbig2 отдельным exe ? Или он юзает непосредственно код кодировщика из лептоники?

pdfbeads в себе не содержит, отдельно прописываем в переменных средах путь до эксешника jbig2. на линухе ставится лептоника.
AAW писал(а) 31.12.2018 :: 13:23:17:
я не спец, по-моему, кодировщик (экзешник) из папки "jbig2" вызывается через imagemagick, а тот уже - из pdfbeads.

Не, pdfbeads напрямую работает именно с jbig2, а вот к imagemagick ребование чтоб был с поддержкой jpeg2000
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #68 - 16.04.2019 :: 16:43:46
 
Ма Цзян по моей просьбе изменил работу djvutoy с малоцветкой при конверсии djvu в pdf. Вот софт, на тесты:
https://drive.google.com/open?id=1AZL07mOEwAhiSo8sP2HW6a_2aFKf9CWB
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Skay
Новичок
*
Вне Форума


Всем привет!

Сообщений: 32
Re: Создание PDF-книг
Ответ #69 - 19.04.2019 :: 23:51:23
 
@
AAW
прогнал самое сложное что у меня было - всё тот же экземпляр Свореня. Результат выше всех похвал.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #70 - 20.04.2019 :: 07:34:51
 
Skay
благодаря вашим усилиям по внедрению ruby Улыбка
идея-то хорошая, но разработчик с января не въезжал в тему. уж потом, в марте, взял примеры для разработки.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #71 - 11.06.2019 :: 05:26:16
 
от Ма Цзяна более свежая версия DjvuToy пришла в мае. только сейчас добрался выложить.
https://drive.google.com/open?id=1efCwpGYxhmHDDHxB3pH2IKo7MItAAsB1
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
waleriy
Гуру
****
На Форуме


Всем привет!

Сообщений: 511
Москва
Пол: male
Re: Создание PDF-книг
Ответ #72 - 11.06.2019 :: 18:32:38
 
AAW писал(а) 11.06.2019 :: 05:26:16:
от Ма Цзяна более свежая версия DjvuToy пришла в мае. только сейчас добрался выложить.
https://drive.google.com/open?id=1efCwpGYxhmHDDHxB3pH2IKo7MItAAsB1

Спасибо! Работает! Буд Очень довольныйем разбираться с настройками.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #73 - 11.04.2020 :: 17:07:50
 
djvutoy версии 3.02 вышел.
http://www.mediafire.com/folder/f0z2hexqdnr9a/Software
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #74 - 12.04.2020 :: 15:16:04
 
AAW писал(а) 11.04.2020 :: 17:07:50:
djvutoy версии 3.02 вышел.
http://www.mediafire.com/folder/f0z2hexqdnr9a/Software

а что такое MODI  ?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #75 - 12.04.2020 :: 15:31:46
 
Dmitry7 писал(а) 12.04.2020 :: 15:16:04:
а что такое MODI  ?

Microsoft Office Document Imaging
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #76 - 12.04.2020 :: 15:37:39
 
AAW писал(а) 12.04.2020 :: 15:31:46:
Microsoft Office Document Imaging


спасибо!
первый раз слышу, почитаю, что это такое
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Создание PDF-книг
Ответ #77 - 22.05.2020 :: 22:23:29
 
Для создания книг в формате pdf я пробовал использовать программу DjVuToy: конвертировал в этой программе файлы в формате djvu c OCR-слоем. И заметил, что DjVuToy не переносит из тестового слоя файла djvu в тестовый слой pdf символ длинного тире - после копирования в файле pdf фрагмента текста, содержащего длинное тире, и последующей его вставки в Блокнот или Word, вместо длинного тире отображается символ знака вопроса. Причём при копировании этого же фрагмента текста в исходном файле djvu и его вставке в текстовый редактор длинное тире отображается правильно.
Уважаемый AAW, насколько я понял вы контактируете с создателем DjVuToy, так может быть озвучите ему эту проблемку. Не то чтобы это критичный недостаток, но другие-то символы DjVuToy в pdf переносит: и кавычки, и дефис, и восклицательный знак, и, кстати, вопросительный знак.
Использовал я DjVuToy версии 3.02, галочку в чекбоксе "OCR if no text" не ставил.  Распознавание текста проводил в FineReader, текстовый слой в djvu вставлял программой DjvuOCR.
Наверх
« Последняя редакция: 22.05.2020 :: 22:37:27 от mais »  
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #78 - 22.05.2020 :: 23:13:15
 
mais писал(а) 22.05.2020 :: 22:23:29:
Распознавание текста проводил в FineReader, текстовый слой в djvu вставлял программой DjvuOCR.

какую версию FR использовали?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #79 - 23.05.2020 :: 05:12:32
 
mais писал(а) 22.05.2020 :: 22:23:29:
Использовал я DjVuToy версии 3.02

примеры подберите. и скриншоты. мой английский далее "hello" и "sorry" недалеко ушёл Улыбка
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг
Ответ #80 - 23.05.2020 :: 12:13:06
 
mais писал(а) 22.05.2020 :: 22:23:29:
И заметил, что DjVuToy не переносит из тестового слоя файла djvu в тестовый слой pdf символ длинного тире
но другие-то символы DjVuToy в pdf переносит: и кавычки, и дефис, и восклицательный знак, и, кстати, вопросительный знак.
Так тут все просто, вышеперечисленные символы из стандартной таблицы знаков, а вот длинное тире - из дополнительной.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #81 - 23.05.2020 :: 15:05:44
 
Начав копать в сторону оптимизации ПДФ столкнулся с такой загагулиной... Все имеющиеся у меня проги дают "замусоренный" до нельзя ПДФ на битовых картинках!
Прямой импорт 139-ти битмапов в Акробат даёт ПДФ 1,6 МБ, а экспорт в ПДФ из программ - 13 МБ. Оптимизация не помогает, в Акробате тоже... ничего не помогает. Улыбка
Старых версий Акробата у меня нет, чтобы понять толи Акробат мудит, то ли на самом деле так много мусора генерируется, то ли сжимается неправильно.

https://yadi.sk/d/x9yNUCqsC3JrBw

...как бы невелика потеря, но всё же. Улыбка

Кстати, гляньте. пожалуйста, на скорость отрисовки страниц во вьюерах. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг
Ответ #82 - 23.05.2020 :: 20:58:22
 
slava_kry писал(а) 23.05.2020 :: 15:05:44:
Старых версий Акробата у меня нет, чтобы понять толи Акробат мудит, то ли на самом деле так много мусора генерируется, то ли сжимается неправильно.
У меня есть почти все версии от 11 и ниже.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #83 - 23.05.2020 :: 21:31:14
 
@
Владислав_72
Можете с 8-ой по 10-ю выложить на ЯДиск или куда ещё?
Буду через виртуалку пробовать.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #84 - 24.05.2020 :: 07:53:13
 
slava_kry писал(а) 23.05.2020 :: 15:05:44:
скорость отрисовки страниц во вьюерах

отрисовывается быстро.

Я не спец в потрохах пдф. Взял восьмую страничку: для версии 1,6Мб изображение 28й объект, вот параметры, найдены тупо просмотром через lister тоталкоммандера:

28 0 obj
<</BitsPerComponent 1/ColorSpace/DeviceGray/Filter/JBIG2Decode/Height 6567/Length 9986

а для версии 13Мб это же изображение - объект 573, и вот что пишет:

573 0 obj
<</BitsPerComponent 1/Decode[0.0 1.0]/DecodeParms<</Columns 4913/K -1/Rows 6567>>/Filter/CCITTFaxDecode/Height 6567/ImageMask true/Intent/RelativeColorimetric/Length 110691
xchange editor пишет что для здорового файла это - "маска". а для маленького - это "изображение".
Ну и length сразу видно, 9к или 110к. кодирование тоже разное.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг
Ответ #85 - 24.05.2020 :: 09:37:33
 
slava_kry писал(а) 23.05.2020 :: 21:31:14:
[color=#0033cc]
Можете с 8-ой по 10-ю выложить на ЯДиск или куда ещё?
Вам какие версии, портабл (без установки) или установочные (есть образы полных дисков, а есть unattended)?
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #86 - 24.05.2020 :: 12:43:45
 
@
Владислав_72
Давайте без установки. Спасибо!

@
AAW
Да, данные ПитСтопа меня этим именно и смущали, что на битмапах выдавали их как "Маска" и как "RGB|CMYK"
Тогда получается, что цветокоррекция не отключается и все изображения кодируются как "маски" из всех доступных программ всёрстки.

А по второму заголовку (CCITTFaxDecode) ещё и выясняется, что Акробат их не перекодирует после "оптимизации"... Или я тут чего-то не так сделал.

Понял, ладно.
Спасибо!
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #87 - 24.05.2020 :: 14:08:43
 
Месяца полтора назад я немножко почитал про структуру pdf. Пара толковых ссылок:
Очерк по поводу создания PDF-файлов
Максим Фокин
http://citforum.ru/programming/digest/pdf_inside/

mini pdf FAQ
http://zavelos.ru/forum/13400-Kto-razbiraetsya-vo-vnutrennostyah-PDF-podskazhite

Ибо в официальном документе от адоба просто утонуть можно. А тут наглядненько.

Кстати, когда поток (stream) компрессирован Flate, разжать его помогает утилитка offzip.exe
https://zenhax.com/viewtopic.php?t=5
http://aluigi.altervista.org/mytoolz.htm#offzip
Через Flate обычно сжаты потоки команд (текст, графические примитивы pdf), а конкретно мне понадобилось увидеть перекодировочную таблицу шрифта, чтобы кракозябры исправить. Не шибко удобно пользоваться, это да. Зато контроль формата есть - если stream скопирован в бинарный входной файл неверно, то offzip ругнется.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #88 - 24.05.2020 :: 17:34:41
 
Спасибо.
Пропробуем. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Создание PDF-книг
Ответ #89 - 24.05.2020 :: 20:00:11
 
AAW писал(а) 23.05.2020 :: 05:12:32:
примеры подберите. и скриншоты. мой английский далее "hello" и "sorry" недалеко ушёл Улыбка

И ещё опубликовал новость о книге в теме "Re: !!! Книги для библиотек (общая тема ) !!!" "Ответ #2186 - 24.05.2020 :: 21:15:58"
При копировании текста из файла djvu длинное тире в текстовых редакторах отображается правильно, при копировании из pdf - появляются символы знака вопроса.

Для распознавания я использую FineReader 12. Раньше в этой программе и книги в pdf создавал, но по сравнению с pdf, созданными в DjVuToy, они получаются больше по размеру и, что важнее, тяжелее открываются.

Поэтому сейчас я делаю так:
- создаю djvu в программе DjVu Small;
- распознаю его в FineReader 12 и тут же создаю в FR второй файл djvu с OCR-слоем;
- программой DjvuOCR.v2.4 извлекаю текстовый слой из djvu, созданного в FineReader, и внедряю текст в первый файл djvu намного меньшего размера;
- конвертирую djvu в pdf с переносом текстового слоя в программе DjVuToy.

По-моему это довольно оптимальный способ создания чёрно-белых книг в формате pdf для тех, кто не силён в работе с этим форматом и кто изначально предпочитает djvu. И качество не страдает, и размер.

Относительно конвертирования книг с цветными иллюстрациями в программе DjVuToy ничего не могу сказать, не пробовал (одна цветная обложка в ч/б книге не в счёт).
Может быть кто-то поделится своим мнением о качестве конвертирования таких книг в DjVuToy?
Наверх
« Последняя редакция: 30.11.2022 :: 14:03:12 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #90 - 25.05.2020 :: 06:47:37
 
mais писал(а) 24.05.2020 :: 20:00:11:
Вот здесь я выложил книгу

Блин, ставите вы задачки...
Пока что я только докопался, что длинное тире бывает разное Улыбка Например, код 0xE28094 или "em dash" 0x2014 151й код в win1252.
upd

письмо составил и отослал.
Наверх
« Последняя редакция: 25.05.2020 :: 12:12:27 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #91 - 25.05.2020 :: 13:02:06
 
@
mais
@
AAW
"Получи фашист гранату" от верстальщика (это не я Улыбка ):
- дефис
– короткое тире alt 0150
— длинное тире alt 0151
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #92 - 25.05.2020 :: 13:26:12
 
slava_kry
Улыбка
https://www.fileformat.info/info/unicode/char/2014/index.htm
там в блоке encodings код hex - шестизначный. И как раз тот, что ФР поставил в файле у mais. Чудны дела твои, господи.
Я вообще не очень понимаю, как автор djvutoy получил такой ляп. Внутри djvu ведь utf-8 кодировка. Ладно бы он шрифты неверно подобрал, но он ведь неверно опознает codepage, а она-то тут причём. Куда он транслирует utf?? Взял уникодный шрифт тот, откуда символ, встроил, и нет проблем. Не 90е годы.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг
Ответ #93 - 25.05.2020 :: 13:51:17
 
Вы же знаете - Человек идёт как проще и быстрее. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #94 - 26.05.2020 :: 11:51:21
 
mais писал(а) 24.05.2020 :: 20:00:11:
конвертирую djvu в pdf с переносом текстового слоя в программе DjVuToy.
По-моему это довольно оптимальный способ создания чёрно-белых книг в формате pdf для тех, кто не силён в работе с этим форматом и кто изначально предпочитает djvu. И качество не страдает, и размер.

Есть еще способ, если у Вас в книге много длинных тире:
- конвертировать djvu в pdf без переноса текстового слоя с помощью DjVuToy (либо убрать галку, либо до распознавания djvu);
- добавить нормальный текстовый слой из ABBYY PDF Transformer 12 (он не портит графическую часть).
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #95 - 30.05.2020 :: 14:50:58
 
mais писал(а) 24.05.2020 :: 20:00:11:
При копировании текста из файла djvu длинное тире в текстовых редакторах отображается правильно, при копировании из pdf - появляются символы знака вопроса.


Так. Разраб djvutoy прислал мне бету 3.03 на тесты. Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.
https://yadi.sk/i/nDF80qj-D8EWRw

Далее два варианта: либо я в ЛС передам заинтересованным эту бету, чтоб сами потестили. Либо указывайте на файлы - здесь или в личке - я конвертну и отдам результат. Ну и сам гляну, что получается.
Лучше, конечно, первый вариант Улыбка

Накосячить автор djvutoy мог как угодно... потому и отдавать экзешник в публичный доступ не хочется.

Думаю найти дежавюшку со сложными символами разных языков, ну и на малоцветку поглядеть, не сбил ли он чего. А такой файл ещё фиг найдёшь.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #96 - 30.05.2020 :: 21:57:12
 
AAW писал(а) 30.05.2020 :: 14:50:58:
Так. Разраб djvutoy прислал мне бету 3.03 на тесты. Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.
https://yadi.sk/i/nDF80qj-D8EWRw
..
Накосячить автор djvutoy мог как угодно...


Еще бы он не портил обложки (полноцветки), их качество при конвертации явно ухудшается. Лучше бы оставлял сжатие "как есть", без изменений.
Можете до автора донести?

вопрос снят
Наверх
« Последняя редакция: 31.05.2020 :: 11:33:58 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #97 - 31.05.2020 :: 04:50:48
 
Dmitry7 писал(а) 30.05.2020 :: 21:57:12:
Лучше бы оставлял сжатие "как есть"

Можно ли так сделать? Что ему писать - сделать регулировку, или копировать jpeg2000 без пересжатий - ?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #98 - 31.05.2020 :: 08:13:15
 
AAW писал(а) 31.05.2020 :: 04:50:48:
Можно ли так сделать? Что ему писать - сделать регулировку, или копировать jpeg2000 без пересжатий - ?

Наверное, копировать без пересжатий
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #99 - 02.06.2020 :: 05:10:18
 
По djvutoy. Разработчик сейчас написал, что несколько языков при конверсии программа не поддерживает: я ему задал вопрос, почему иероглифы внутри русско-англо-французского текста некорректно перекопировались в ocr-слой pdf. Вот такой ответ приехал. Так что djvutoy далеко не всюду панацея, хотя программа отличная. И разработчик мне нравится, шустрый и въедливый.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Создание PDF-книг
Ответ #100 - 02.06.2020 :: 20:34:29
 
AAW писал(а) 30.05.2020 :: 14:50:58:
Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.

Да, длинное тире в Word'e и Блокноте отображается правильно.
А в новой бете остался чекбокс "Merge words to line" во вкладке "To PDF"? Текст, скопированный из выложенного вами для примера файла, вставляется в текстовый редактор лесенкой, чуть не каждое слово - с красной строки. На возможность поиска текста в файле это не влияет, но в Word'e смотрится диковато.

AAW писал(а) 02.06.2020 :: 05:10:18:
Разработчик сейчас написал, что несколько языков при конверсии программа не поддерживает

В этой же книге есть сноски на испанском языке, они в Word переносятся правильно, в том числе диакритические знаки (в FR я установил русский и испанский языки распознавания перед началом обработки).

AAW писал(а) 30.05.2020 :: 14:50:58:
Далее два варианта: либо я в ЛС передам заинтересованным эту бету, чтоб сами потестили.

Если ваше предложение ещё в силе, то я готов потестировать бета-версию, по крайней мере её возможности в создании файлов pdf.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #101 - 09.06.2020 :: 06:48:34
 
И ещё коммент по djvutoy как конвертер: от разработчика пришёл ответ по поводу трансляции символа табуляции.

Цитата:
I tried "Save As PDF" in Office 2013, and the printer from Acrobat and doPdf. All of them just translate TAB (0x09) to SPACE (0x20).
So dose DjVuToy now.

Может, так в стандарте на пдф положено транслировать, шут знает.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Goras
Новичок
*
Вне Форума


Всем привет!

Сообщений: 26
Пол: male
Re: Создание PDF-книг
Ответ #102 - 04.09.2020 :: 14:50:56
 
Смотря как настройки выставить. Это не стандарт
Цитата:
Может, так в стандарте на пдф положено транслировать, шут знает

В этом стандарте конечно все возможно в некотором роде. Но в настройках есть несколько приемов, которые позволяют расширить возможности. Это как наращивание волос с разными способами. Если кто в теме тот знает, что не все способы хорошие и безвредные. Лучше всего конечно обойтись без этого но а если никак то тогда да, нарастить можно волосы любой длины
Наверх
« Последняя редакция: 10.09.2020 :: 21:28:49 от Goras »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5556
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #103 - 02.03.2023 :: 05:42:03
 
zvezdochiot писал(а) 01.03.2023 :: 21:01:39:
PS: Да и не очень мне нравится JBIG2. Какой то он тормозной.

а вот есть у меня хороший технический вопрос:
можно ли в продуктах адоба настроить количество страниц (или объектов) словаря jbig2? Там ведь всё равно словарь(и) создаются. И тормоза, кмк, от его неоптимального использования. На слишком большое число страниц.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AbsurdMan
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1238
Москва
Пол: male
Re: Создание PDF-книг
Ответ #104 - 09.05.2024 :: 11:27:52
 
Подскажите, чем возможно раскодировать такого рода пдф'ки?
https://disk.yandex.ru/i/IQUb6BpEO991cg
Наверх
 
446581004  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 895
Re: Создание PDF-книг
Ответ #105 - 09.05.2024 :: 13:06:57
 
Elcomsoft Advanced PDF Password Recovery


https://disk.yandex.ru/d/KkyXAD_3firDkw
Наверх
 
 
IP записан
 
AbsurdMan
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1238
Москва
Пол: male
Re: Создание PDF-книг
Ответ #106 - 10.05.2024 :: 03:00:34
 
xyz
Большое спасибо!
Наверх
 
446581004  
IP записан
 
Страниц: 1 
Послать Тему Печать