OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 3 4 
Послать Тему Печать
Создание PDF-книг (Прочитано 46911 раз)
slava_kry
Гуру
****
Вне Форума



Сообщений: 552
Re: Создание PDF-книг
Ответ #90 - 24.05.2020 :: 17:34:16
 
Спасибо.
Пропробуем. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Создание PDF-книг
Ответ #91 - 24.05.2020 :: 19:59:46
 
AAW писал(а) 23.05.2020 :: 05:12:07:
примеры подберите. и скриншоты. мой английский далее "hello" и "sorry" недалеко ушёл Улыбка

И ещё опубликовал новость о книге в теме "Re: !!! Книги для библиотек (общая тема ) !!!" "Ответ #2186 - 24.05.2020 :: 21:15:58"
При копировании текста из файла djvu длинное тире в текстовых редакторах отображается правильно, при копировании из pdf - появляются символы знака вопроса.

Для распознавания я использую FineReader 12. Раньше в этой программе и книги в pdf создавал, но по сравнению с pdf, созданными в DjVuToy, они получаются больше по размеру и, что важнее, тяжелее открываются.

Поэтому сейчас я делаю так:
- создаю djvu в программе DjVu Small;
- распознаю его в FineReader 12 и тут же создаю в FR второй файл djvu с OCR-слоем;
- программой DjvuOCR.v2.4 извлекаю текстовый слой из djvu, созданного в FineReader, и внедряю текст в первый файл djvu намного меньшего размера;
- конвертирую djvu в pdf с переносом текстового слоя в программе DjVuToy.

По-моему это довольно оптимальный способ создания чёрно-белых книг в формате pdf для тех, кто не силён в работе с этим форматом и кто изначально предпочитает djvu. И качество не страдает, и размер.

Относительно конвертирования книг с цветными иллюстрациями в программе DjVuToy ничего не могу сказать, не пробовал (одна цветная обложка в ч/б книге не в счёт).
Может быть кто-то поделится своим мнением о качестве конвертирования таких книг в DjVuToy?
Наверх
« Последняя редакция: 30.11.2022 :: 14:02:47 от Вадим »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #92 - 25.05.2020 :: 06:47:12
 
mais писал(а) 24.05.2020 :: 19:59:46:
Вот здесь я выложил книгу

Блин, ставите вы задачки...
Пока что я только докопался, что длинное тире бывает разное Улыбка Например, код 0xE28094 или "em dash" 0x2014 151й код в win1252.
upd

письмо составил и отослал.
Наверх
« Последняя редакция: 25.05.2020 :: 12:12:02 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 552
Re: Создание PDF-книг
Ответ #93 - 25.05.2020 :: 13:01:41
 
@
mais
@
AAW
"Получи фашист гранату" от верстальщика (это не я Улыбка ):
- дефис
– короткое тире alt 0150
— длинное тире alt 0151
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #94 - 25.05.2020 :: 13:25:47
 
slava_kry
Улыбка
https://www.fileformat.info/info/unicode/char/2014/index.htm
там в блоке encodings код hex - шестизначный. И как раз тот, что ФР поставил в файле у mais. Чудны дела твои, господи.
Я вообще не очень понимаю, как автор djvutoy получил такой ляп. Внутри djvu ведь utf-8 кодировка. Ладно бы он шрифты неверно подобрал, но он ведь неверно опознает codepage, а она-то тут причём. Куда он транслирует utf?? Взял уникодный шрифт тот, откуда символ, встроил, и нет проблем. Не 90е годы.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 552
Re: Создание PDF-книг
Ответ #95 - 25.05.2020 :: 13:50:52
 
Вы же знаете - Человек идёт как проще и быстрее. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5890
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #96 - 26.05.2020 :: 11:50:56
 
mais писал(а) 24.05.2020 :: 19:59:46:
конвертирую djvu в pdf с переносом текстового слоя в программе DjVuToy.
По-моему это довольно оптимальный способ создания чёрно-белых книг в формате pdf для тех, кто не силён в работе с этим форматом и кто изначально предпочитает djvu. И качество не страдает, и размер.

Есть еще способ, если у Вас в книге много длинных тире:
- конвертировать djvu в pdf без переноса текстового слоя с помощью DjVuToy (либо убрать галку, либо до распознавания djvu);
- добавить нормальный текстовый слой из ABBYY PDF Transformer 12 (он не портит графическую часть).
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #97 - 30.05.2020 :: 14:50:33
 
mais писал(а) 24.05.2020 :: 19:59:46:
При копировании текста из файла djvu длинное тире в текстовых редакторах отображается правильно, при копировании из pdf - появляются символы знака вопроса.


Так. Разраб djvutoy прислал мне бету 3.03 на тесты. Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.
https://yadi.sk/i/nDF80qj-D8EWRw

Далее два варианта: либо я в ЛС передам заинтересованным эту бету, чтоб сами потестили. Либо указывайте на файлы - здесь или в личке - я конвертну и отдам результат. Ну и сам гляну, что получается.
Лучше, конечно, первый вариант Улыбка

Накосячить автор djvutoy мог как угодно... потому и отдавать экзешник в публичный доступ не хочется.

Думаю найти дежавюшку со сложными символами разных языков, ну и на малоцветку поглядеть, не сбил ли он чего. А такой файл ещё фиг найдёшь.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5890
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #98 - 30.05.2020 :: 21:56:47
 
AAW писал(а) 30.05.2020 :: 14:50:33:
Так. Разраб djvutoy прислал мне бету 3.03 на тесты. Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.
https://yadi.sk/i/nDF80qj-D8EWRw
..
Накосячить автор djvutoy мог как угодно...


Еще бы он не портил обложки (полноцветки), их качество при конвертации явно ухудшается. Лучше бы оставлял сжатие "как есть", без изменений.
Можете до автора донести?

вопрос снят
Наверх
« Последняя редакция: 31.05.2020 :: 11:33:33 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #99 - 31.05.2020 :: 04:50:23
 
Dmitry7 писал(а) 30.05.2020 :: 21:56:47:
Лучше бы оставлял сжатие "как есть"

Можно ли так сделать? Что ему писать - сделать регулировку, или копировать jpeg2000 без пересжатий - ?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5890
Санкт-Петербург
Пол: male
Re: Создание PDF-книг
Ответ #100 - 31.05.2020 :: 08:12:50
 
AAW писал(а) 31.05.2020 :: 04:50:23:
Можно ли так сделать? Что ему писать - сделать регулировку, или копировать jpeg2000 без пересжатий - ?

Наверное, копировать без пересжатий
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #101 - 02.06.2020 :: 05:09:53
 
По djvutoy. Разработчик сейчас написал, что несколько языков при конверсии программа не поддерживает: я ему задал вопрос, почему иероглифы внутри русско-англо-французского текста некорректно перекопировались в ocr-слой pdf. Вот такой ответ приехал. Так что djvutoy далеко не всюду панацея, хотя программа отличная. И разработчик мне нравится, шустрый и въедливый.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Создание PDF-книг
Ответ #102 - 02.06.2020 :: 20:34:04
 
AAW писал(а) 30.05.2020 :: 14:50:33:
Вроде на вашем файле, mais, проблемы с длинным тире нет при конверсии.

Да, длинное тире в Word'e и Блокноте отображается правильно.
А в новой бете остался чекбокс "Merge words to line" во вкладке "To PDF"? Текст, скопированный из выложенного вами для примера файла, вставляется в текстовый редактор лесенкой, чуть не каждое слово - с красной строки. На возможность поиска текста в файле это не влияет, но в Word'e смотрится диковато.

AAW писал(а) 02.06.2020 :: 05:09:53:
Разработчик сейчас написал, что несколько языков при конверсии программа не поддерживает

В этой же книге есть сноски на испанском языке, они в Word переносятся правильно, в том числе диакритические знаки (в FR я установил русский и испанский языки распознавания перед началом обработки).

AAW писал(а) 30.05.2020 :: 14:50:33:
Далее два варианта: либо я в ЛС передам заинтересованным эту бету, чтоб сами потестили.

Если ваше предложение ещё в силе, то я готов потестировать бета-версию, по крайней мере её возможности в создании файлов pdf.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #103 - 09.06.2020 :: 06:48:09
 
И ещё коммент по djvutoy как конвертер: от разработчика пришёл ответ по поводу трансляции символа табуляции.

Цитата:
I tried "Save As PDF" in Office 2013, and the printer from Acrobat and doPdf. All of them just translate TAB (0x09) to SPACE (0x20).
So dose DjVuToy now.

Может, так в стандарте на пдф положено транслировать, шут знает.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Goras
Новичок
*
Вне Форума


Всем привет!

Сообщений: 26
Пол: male
Re: Создание PDF-книг
Ответ #104 - 04.09.2020 :: 14:50:31
 
Смотря как настройки выставить. Это не стандарт
Цитата:
Может, так в стандарте на пдф положено транслировать, шут знает

В этом стандарте конечно все возможно в некотором роде. Но в настройках есть несколько приемов, которые позволяют расширить возможности. Это как наращивание волос с разными способами. Если кто в теме тот знает, что не все способы хорошие и безвредные. Лучше всего конечно обойтись без этого но а если никак то тогда да, нарастить можно волосы любой длины
Наверх
« Последняя редакция: 10.09.2020 :: 21:28:24 от Goras »  
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Создание PDF-книг
Ответ #105 - 02.03.2023 :: 05:41:38
 
zvezdochiot писал(а) 01.03.2023 :: 21:01:14:
PS: Да и не очень мне нравится JBIG2. Какой то он тормозной.

а вот есть у меня хороший технический вопрос:
можно ли в продуктах адоба настроить количество страниц (или объектов) словаря jbig2? Там ведь всё равно словарь(и) создаются. И тормоза, кмк, от его неоптимального использования. На слишком большое число страниц.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Страниц: 1 2 3 4 
Послать Тему Печать