OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Djvu и PDF сделанные из .doc файлов (Прочитано 1507 раз)
Dimitriy89
Новичок
*
Вне Форума


Всем привет!

Сообщений: 22
Пол: male
Djvu и PDF сделанные из .doc файлов
12.04.2023 :: 02:18:01
 
Интересно, нормально ли это?

Заметил, что некоторые Djvu и PDF сделаны не из сканов книг, а из распознанных и конвертированных в формат вроде MS Word DOC или аналогичные.  К примеру, книги собрания сочинений Ленина (5-й выпуск), в чем легко убедиться положив перед собой бумажный том и сравнив с файлом.

Для сравнения отсканировал, том 29, стр.154  на изображении - слева страница в djvu из Том 29 ПСС Ленина в этой библиотеке   справа - скан оригинала

https://tinypic.host/i/oojxrR

Замечу, что разбиение на страницы и примерное положение текста сохраняются, так что например, для ссылок на работу использовать можно.  Кто-то конечно проделал титаническую работу, форматируя DOC-файлы под оригинал (Finereader-а должно быть недостаточно), фактически заново набрав его. И тем не менее, как-то привыкли все, что djvu - это факсимиле, возможно с OCR-слоем, а тут необычно. Еще вроде в ПСС Маркса и Энгельса также.
Наверх
« Последняя редакция: 12.04.2023 :: 02:30:31 от Dimitriy89 »  
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #1 - 12.04.2023 :: 03:23:41
 
Dimitriy89 писал(а) 12.04.2023 :: 02:18:01:
PDF сделаны не из сканов книг, а из распознанных и конвертированных в формат вроде MS Word DOC или аналогичные.

Когда мне попались к одному журналу наборы SVG(text) + JPEG(BG), я был щастлив до чортиков. С упорством маньяка корпел над этими наборами,  но сколотил таки в кои то веки векторные выпуски данного журнала в PDF. Кто сделал и чем эти SVG-шки? Понятия не имею. Но радости моей не было предела. Всё остальное растровое месиво особой радости почему то не приносит.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
Dimitriy89
Новичок
*
Вне Форума


Всем привет!

Сообщений: 22
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #2 - 12.04.2023 :: 05:06:38
 
Не знаю, что там с журналом, но если максимально дотошно подходить, то видно, что содержимое слегка искажается - вертикальные отчеркивания в PDF/Djvu и на бумаге (скане) содержат чуть разный текст.  Не готов сказать, насколько это важно, но если считать, что бумажный вариант максимально повторяет рукописный ленинский, то вот такой нюанс.

Конечно, я специально еще такой пример выбрал (философские тетради), на котором подобные несоответствия в принципе могут иметь значение. В остальном вряд ли.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1077
Россия
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #3 - 12.04.2023 :: 10:14:41
 
Dimitriy89 писал(а) 12.04.2023 :: 02:18:01:
Заметил, что некоторые Djvu и PDF сделаны не из сканов книг, а из распознанных и конвертированных в формат вроде MS Word DOC или аналогичные.

Я считаю такие поделки самиздатом. Причем весьма вредным. Это уже не оцифрованные копии книг, а самостоятельные издания со своим оформлением и редакцией. Что изменили такие редакторы в словах и в тексте? Как эти изменения отразятся на смысле произведения? До какой степени исказят его?
Считаю, идя этим путем можно погубить все наше дело!
Наверх
 
WWW  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #4 - 12.04.2023 :: 15:19:27
 
Dimitriy89 писал(а) 12.04.2023 :: 05:06:38:
содержимое слегка искажается

Ну "это" как сравнивать фотографию и картину. Ценность одного и другого определяется "слегка" по другим критериям. И "что" ценее зависит совсем не от идентичности, а сильно зависит от мастерства и вовлечённости в процесс. Пришлый "Вася" ни "фотографии" нормальной не сделает, ни "картины" нормальной не намалюет. А увлечённый "художник" в лёгкую всех "фотографов" уделает.


Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #5 - 12.04.2023 :: 15:39:46
 
zvezdochiot писал(а) 12.04.2023 :: 15:19:27:
сильно зависит от мастерства и вовлечённости в процесс

Так можно договориться до любой мерзости и сбить исходную цель. Я, мол, художник, я так вижу.
Эталон, он всегда есть.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #6 - 12.04.2023 :: 16:43:32
 
AAW писал(а) 12.04.2023 :: 15:39:46:
Я, мол, художник, я так вижу.

"Кто о чём, а вшивый о бане". Повторюсь для "танкистов":
zvezdochiot писал(а) 12.04.2023 :: 15:19:27:
Пришлый "Вася" ни "фотографии" нормальной не сделает, ни "картины" нормальной не намалюет.

Расшифровываю: Мне на данный момент неизвестны методики, позволяющие делать достойные векторные PDF из отсканированного материала. То есть векторный PDF в данном случае - это ручное наложение каждой литеры поверх изображения. Это же с ума от такого можно сойти. Но это не значит, что такое в принципе нельзя сделать.

PS: Я таким образом (наложением литер поверх изображения) осилил только одну страницу в Scribus. Корпел над ней около месяца. Но надо было, так как весь журнал был векторным, а одна страница "вдруг" растровая. "Не важно, сколько времени затрачено на создание цифрового издания, важно только сколько неприятностей и трудностей это цифровое издание создаст читателю".

Наверх
« Последняя редакция: 12.04.2023 :: 17:02:06 от zvezdochiot »  

Keep it simple, stupid
WWW  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #7 - 12.04.2023 :: 17:59:17
 
zvezdochiot писал(а) 12.04.2023 :: 16:43:32:
ручное наложение каждой литеры поверх изображения

н-р, технология clearscan от Адоба. Затем для сильно упертых перевод обратно в растр и распознавание с учётом обучения на данном шрифте. Затем вычитка.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Djvu и PDF сделанные из .doc файлов
Ответ #8 - 12.04.2023 :: 18:09:04
 
AAW писал(а) 12.04.2023 :: 17:59:17:
н-р, технология clearscan от Адоба

Предоставляйте образцы для оценки "этой" технологии. Посмотрим, действительно ли можно считать её достойной. И достойной в каком смысле. И можно ли вообще её хоть как то сравнивать с ручным наложением литер поверх изображения. "Всё познаётся в сравнении".

PS: В начальном посте представлено именно такое сравнение. Это сравнение представляет не особо достойную технологию. Для каких то целей она может быть и годна. Но по сравнению с тем, что я делал вручную - это вообще не то, и не так.

ИМХО: Достойной была бы технология на базе SVG. Но пока нет инструментария, позволяющего на лету подгонять шрифт и размерности, говорить не о чем.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать