OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Создание PDF-книг из сканов с OCR слоем? (Прочитано 27001 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Создание PDF-книг из сканов с OCR слоем?
24.04.2012 :: 19:53:33
 
подскажите, пожалуйста, какой программой лучше всего добавлять OCR слой в PDF (в виде сканированных страниц) ?

и вообще, какая технология работы с PDF ? (с djvu понятно, есть программка djvuOCR и др.):

1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?
2. как и чем распознавать ? в каком виде сохранять результаты распознавания?
2. как и чем добавлять OCR-слой ?
Наверх
« Последняя редакция: 24.04.2012 :: 21:40:39 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем
Ответ #1 - 24.04.2012 :: 20:01:17
 
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #2 - 25.04.2012 :: 09:44:06
 
Dmitry7 писал(а) 24.04.2012 :: 19:53:33:
1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?
2. как и чем распознавать ? в каком виде сохранять результаты распознавания?
3. как и чем добавлять OCR-слой ?

1. FreePic2PDF
2. Акробат Х ClearScan
3. Акробат Х ClearScan
Разумеется, если нет каких-то особых, выходящих за рамки, требований. Полученный PDF при желании легко конвертируется в djvu с сохранением OCR. Надеюсь, править и корректировать текстовый слой после OCR, Вы не собираетесь?
Наверх
 
 
IP записан
 
bolega
Гуру
****
Вне Форума



Сообщений: 772
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #3 - 25.04.2012 :: 16:12:13
 
Dmitry7 писал(а) 24.04.2012 :: 19:53:33:
1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?

pdf можно создать самим СК. Но конечно потребуется оптимизация полученного файла. Я ее делаю в акробате. Clearscan не использую, из-за его непредсказуемых (но редких) глюках.
Если на выходе - только страницы, без зон, то в принципе делать можно чем угодно. Если же есть зоны, то лучше сделать pdf СК, а потом уже оптимизировать. Иначе я не знаю, как например FreePic2PDF или другая прога поймет, что нужно добавлять такие-то зоны на такие-то страницы, да возможно еще с такой-то маской прозрачности (для зон произвольной формы). Можно конечно предварительно слить зоны с текстом, но тогда и страницы в pdf получатся цветными, что не есть хорошо (иначе зачем было их делить в СК). А если pdf делает СК, то ч/б текст он помещает в один слой, а картинки - в другой. Сжатие у них независимое, и регулируется опциями СК, вплоть до того, что для каждой картинки можно задать индивидуальную степень сжатия и формат (tif, jpj, jpg2000).
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #4 - 25.04.2012 :: 19:58:46
 
GMAP писал(а) 25.04.2012 :: 09:44:06:
3. Акробат Х ClearScan
Разумеется, если нет каких-то особых, выходящих за рамки, требований. Полученный PDF при желании легко конвертируется в djvu с сохранением OCR. Надеюсь, править и корректировать текстовый слой после OCR, Вы не собираетесь?


а какое качество распознавания?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 81
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #5 - 25.04.2012 :: 21:02:37
 
C ClearScan нужно аккуратнее пользоваться.
Как-то в этом режиме прошивал OCR в книге с плохим качеством сканирования, так целые строки местами в книге исчезли, как и не бывало.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #6 - 26.04.2012 :: 10:08:27
 
Dmitry7 писал(а) 25.04.2012 :: 19:58:46:
а какое качество распознавания?

А какое Вам нужно? Говорить о качестве OCR текстового слоя бессмысленно по определению. OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.
Jeffry писал(а) 25.04.2012 :: 21:02:37:
C ClearScan нужно аккуратнее пользоваться. Как-то в этом режиме прошивал OCR в книге с плохим качеством сканирования, так целые строки местами в книге исчезли, как и не бывало.

Вы опоздали. Причины подобного поведения, связанного с кривыми pdf, давно найдены и устранены, а плохое качество сканов не для ClearScan.

Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #7 - 26.04.2012 :: 20:35:29
 
GMAP писал(а) 26.04.2012 :: 10:08:27:
А какое Вам нужно? Говорить о качестве OCR текстового слоя бессмысленно по определению. OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.

нужно примерно такое, какое дает FR8 без вычитки.
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #8 - 26.04.2012 :: 22:09:31
 
Dmitry7 писал(а) 26.04.2012 :: 20:35:29:
нужно примерно такое, какое дает FR8 без вычитки.

Это расплывчатый критерий. Попробуйте сами, лучше один раз увидеть...
Наверх
 
 
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 81
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #9 - 29.04.2012 :: 07:57:35
 
Цитата:
подобного поведения, связанного с кривыми pdf, давно найдены и устранены

Опишите вкратце, в чем проблема была.   А то с тех пор (года 2 уже) для меня ClearScan под запретом.
Цитата:
OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.

OCR либо вычитывается бегло, либо долго.   Это и зависит от качества OCR.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #10 - 29.04.2012 :: 09:47:07
 
Jeffry писал(а) 29.04.2012 :: 07:57:35:
в чем проблема была

В некоторой кривизне pdf, касающейся невидимых областей страниц после разных операций. Когда начали внимательно исследовать причины пропадания строк, все тайное стало явным. Так или иначе, больше никто не жалуется на CS в Акробате Х.

Беглой вычитки не бывает, если она беглая, то она не вычитка.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #11 - 29.04.2012 :: 16:04:44
 
Цитата:
Так или иначе, больше никто не жалуется на CS в Акробате Х.

Не знаю как в Акробате Х (я пока все еще юзаю обновляемый по сю пору Про 9.5.1), но меня изредка достает акробатовская ошибка (что при обычном OCR, что при CS) о невозможности распознавания при распознавании цветных разворотов А3 на 600дпи, отсканированных не целиком, а сшитых в фотошопе (или ином редакторе), причем серые и монохромные такие же развороты на 600дпи распознаются влет (равно как и все развороты на 300дпи, в т.ч. и цветные). Может в курсе, как с этим дело обстоит в Акробате Х, чтоб знать, что пора бы на него переходить ...
Наверх
« Последняя редакция: 30.04.2012 :: 12:41:03 от Владислав_72 »  
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #12 - 01.05.2012 :: 10:48:27
 
И еще заметил глюк Clearscan в моем акробате 9.5 (так и не исправляется до сих пор): если вдруг попадется хотя бы одна страница, которую данный режим не смог обработать (ошибка распознавания), то даже если все остальное обработано и распознано им корректно, размер файла не меняется (остается таким же, как и до распознавания этим режимом), помогает только перезагрузка акробата или обработка в этом режиме по частям, исключая сбойную(-ые) страницу(-ы).
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #13 - 01.05.2012 :: 13:59:45
 
Владислав_72 писал(а) 29.04.2012 :: 16:04:44:
достает акробатовская ошибка (что при обычном OCR, что при CS) о невозможности распознавания при распознавании цветных разворотов А3 на 600дпи, отсканированных не целиком, а сшитых в фотошопе

Выложите пример, попробую, тогда смогу сказать определенно.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #14 - 02.05.2012 :: 09:50:11
 
Вот одна из таких страниц: http://rghost.ru/37869999
склееный в фотошопе цветной разворот А3 из двух-трех кусков на 600дпи.
а вот сообщение ошибки акробата при любом виде распознавания: http://i37.fastpic.ru/big/2012/0502/ee/cbd8689bef00d97fc000af8604b491ee.png
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #15 - 02.05.2012 :: 12:20:07
 
Акробат X не падает, все нормально. Простите, а что Вы хотели получить от pdf CS в данном конкретном случае? Волшебство, по которому схема станет векторной, как если бы ее рисовали в CAD программе? А может ожидали, что все номиналы станут векторными, текстовыми и можно будет задействовать поиск? Или ради кусочка текста с низким разрешением в левом нижнем углу? Так это легко делается, вопрос только в том - а зачем???
Обработка скана дает куда больше, сравните со своим по размеру файла и качеству, линейные размеры не изменились - http://rghost.ru/37871485 (600 dpi - http://rghost.ru/37872162)
Наверх
« Последняя редакция: 02.05.2012 :: 13:04:17 от GMAP »  
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #16 - 02.05.2012 :: 17:17:08
 
Цитата:
Акробат X не падает, все нормально

Т.е. все-таки распознает? Или просто не падает? Выражайтесь яснее, пожалуйста. Это важно, стоит ли мне переходить на новую версибю или все еще ждать нужного патча старой.
Цитата:
Простите, а что Вы хотели получить от pdf CS в данном конкретном случае? Волшебство, по которому схема станет векторной, как если бы ее рисовали в CAD программе? А может ожидали, что все номиналы станут векторными, текстовыми и можно будет задействовать поиск? Или ради кусочка текста с низким разрешением в левом нижнем углу? Так это легко делается, вопрос только в том - а зачем???
Обработка скана дает куда больше, сравните со своим по размеру файла и качеству, линейные размеры не изменились

Я хочу получить нормально ориентированную страницу с OCR (пусть и с ошибками, сшивка не всегда получается нормально выровнена) вот и все и безо всяких ваших
ерничаний
насчет волшебства. И именно в акробате, и не надо мне настойчиво рекомендовать (как папеВладу) другой софт для работы с пдф. И мой пример, который вы обработали якобы с сохранением качества и уменьшением размера с моей точки зрения годится только в мусорку, вы качество исходного скана убили нафиг. Я-то надеялся, что кто-то сможет мне кое-что прояснить по акробату, но увы, мои надежды оказались бессмысленны, вы показали все, что смогли, больше желания общаться с вами на эту тему у меня нет.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #17 - 03.05.2012 :: 19:06:12
 
Владислав_72 писал(а) 02.05.2012 :: 17:17:08:
больше желания общаться с вами на эту тему у меня нет.

У меня создается неприятное впечатление, что на этом форуме, мягко говоря, весьма своеобразные критерии оценки качества сканов и подхода к программам. Что до общения - нет проблем, если не хотите, то более Вам отвечать не буду. Неотъемлемое право каждого считать свои сканы образцом. Но у других есть такое же право на противоположное мнение.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 345
Москва
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #18 - 04.05.2012 :: 17:02:07
 
Цитата:
У меня создается неприятное впечатление, что на этом форуме, мягко говоря, весьма своеобразные критерии оценки качества сканов и подхода к программам
Я за критерии оценки качества других не отвечаю, только за себя. И свои сканы обязательным образцом для других тем более не считаю, и вполне способен понять, что мои критерии качества не совпадают с вашими, о чем выше и написал. И, кстати, я вас совсем не просил об обработке моего примера, это чисто ваша инициатива, мой вопрос касался только работы Акробата Х.
По мне вот это
http://i4.imageban.ru/out/2012/05/04/55cc2f1312f5ca8d72fe80ccb0fc2c66.jpg
куда более приятно воспринимается, чем ваши этот
http://i4.imageban.ru/out/2012/05/04/c4cf41b020ff21e9578c9a2d873601fc.jpg
и этот
http://i1.imageban.ru/out/2012/05/04/4d8a9cc7a6fe4d905b98171968a0f696.jpg
Возможно пример был не особо удачен, но я взял первое, что попалось под руку из разворотов, а размеры сканов меня мало волнуют, у меня есть куча разворотов с фото и прочей ненаучной и схемной графикой, то дрожь берет, что вы могли бы с нею сотворить при вашей обработке ...
Наверх
 
 
IP записан
 
sea
Новичок
*
Вне Форума


Всем привет!

Сообщений: 1
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #19 - 08.06.2012 :: 17:52:20
 
Здравствуйте!
Имеется PDF с подложенным распознанным текстом, но картинки слишком тяжёлые. Есть ли возможность облегчить PDF, не пропуская его снова через OCR с распознаванием (в принципе, вариант получаемый в FineReader с настройкой "сбалансированный" вполне устроил бы, но сбивается уже правленный распознанный текст)?
Наверх
 
 
IP записан
 
guru2002
Новичок
*
Вне Форума


Всем привет!

Сообщений: 6
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #20 - 03.04.2015 :: 22:51:04
 
bolega писал(а) 25.04.2012 :: 16:12:13:
pdf можно создать самим СК. Но конечно потребуется оптимизация полученного файла. Я ее делаю в акробате.


В чем заключается оптимизация? Можно по-подробнее плиз. - С этим ясно, это в смысле функционала Акробата Х.

Если сделать  OCR в FR8, то где можно прочесть как вставить это в СК? --- Нашел, разобрался.

Спрашиваю это только как альтернативный ход к варианту "все в 1 стакане" = Adobe Acrobat Х. Полагаю просто, что FR лучше распознает. 

http://www.lehigh.edu/~inmedia/media_resources/mc_scan_instr/Acrobat_OCR.pdf

Здесь полная инструкция на 6 стр.

Как описывали это на  руборде, требовался плагин Imposal к Акробату.

Хочу разобраться, как лучше сделать книгу в PDF для международной библиотеки и научных контор -- там принимают только PDF. У  библиотек договора только с Adobe, а не с правообладателями djvu -- из-за коммерческих соображений. Технические характеристики не решают.  Предлагаю это как-то учитывать.      

Для личных нужд можно конвертнуть PDF в DJVU  утилитой PDF2DJVU (GUI) и самоудовлетвориться.
Но кто пишет для публикаций главный, основной формат PDF -- нравится это кому-то или нет.
Это просто международный стандарт науки и библиотек.  А скока файл весит - 10 Мб или 300 Мб - это никого, именно никого, кроме российских энтузиастов, не интересует. Ну, еще правообладателей DJVU, не вылазящих из судов друг с другом пару десятков лет. - С учетом цены носителей информации вопрос давно закрыт и не актуален.
Наверх
« Последняя редакция: 04.04.2015 :: 22:42:22 от guru2002 »  
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #21 - 18.11.2015 :: 16:43:16
 
Получается, для создания правильного *.pdf с ОСР цепочка выглядит:
- сканер+книга - Адоб Акробат Х?
а с использованием ФР как?

(тяжело ломать многолетние привычки, ох)
Буду признателен за ссылки, где можно почитать подробности и методики.
Наверх
 
WWW 67730822  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 557
Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #22 - 19.11.2015 :: 14:18:09
 
Зачем их вам ломать? Вы бы описали их сначала. Улыбка
Вы смотрели на дату последних сообщений? Улыбка

Сейчас ФР используется для создания ОСР, а потом его "подклеивают" в "картиночный" ПДФ.
Всё обычно упирается в обработку сканов между сканером и Акробатом. От неё зависит "сжимаемость" ПДФа.
На самом деле вариантов тьма... как было, так и остаётся. Все с нюансами. Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
chatt
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: цЙТДАИЪЕ PDF-СИЪР ЪТ ЦСАИЙВ Ц OCR ЦУЙЕХ?
Ответ #23 - 28.05.2016 :: 01:12:16
 
Budte dobry, opishite proceduru sozdaniya pdf iz predvaritelno obrabotannyh skanov v ScanCromsator, tak chtob bez poter kachestva i vmenyaemym razmerom fajla.
I kak vnedrit v PDF tekstovyj sloj, chtob ne pereszhimat kartinki, a prosto vstavit ego v kartinochnyj pdf po analogii s DJVUOCR.
Nekotorye peregonyayut v pdf uzhe gotovyj djvu pri pomoschi DjVu Small Mod ili DjVuToy, no oni ne podderzhivayut kirillicu v ocr. Prihoditsya zanovo delat tekstovyj sloj dlya pdf, no ne yasno v chem.
Uzhe mnogo programm obnovilos, hotelos by poluchit aktualnuyu informaciyu po voprosu, vynesennomu v zagolovok temy.

chto-to s kodirovkami u vas, ne mogu normalno napisat`.
Наверх
 
 
IP записан
 
balik2
Активист
***
Вне Форума


Всем привет!

Сообщений: 226
Пол: male
Re: цЙТДАИЪЕ PDF-СИЪР ЪТ ЦСАИЙВ Ц OCR ЦУЙЕХ?
Ответ #24 - 28.05.2016 :: 15:42:13
 
chatt писал(а) 28.05.2016 :: 01:12:16:
Budte dobry, opishite proceduru sozdaniya pdf iz predvaritelno obrabotannyh skanov v ScanCromsator, tak chtob bez poter kachestva i vmenyaemym razmerom fajla.
I kak vnedrit v PDF tekstovyj sloj, chtob ne pereszhimat kartinki, a prosto vstavit ego v kartinochnyj pdf po analogii s DJVUOCR.
Nekotorye peregonyayut v pdf uzhe gotovyj djvu pri pomoschi DjVu Small Mod ili DjVuToy, no oni ne podderzhivayut kirillicu v ocr. Prihoditsya zanovo delat tekstovyj sloj dlya pdf, no ne yasno v chem.
Uzhe mnogo programm obnovilos, hotelos by poluchit aktualnuyu informaciyu po voprosu, vynesennomu v zagolovok temy.

chto-to s kodirovkami u vas, ne mogu normalno napisat`.


в  ScanCromsator отлично создаются pdf без чрезмероного пержима изображдений. когда обработали и перепроверили все страницы охраняете проект, далее file-create out task
во вкладке files выбираете формат pdf и пишете названиее файла чтото типа 1.pdf lfktt ;vtnt process и получаете pdf отличного качества. пс. что  б это делать в сканкромсаторе нужно скачать на комп Kakadu61 и прописат его в настройках file-options-apps
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать