OCR форум - Создание PDF-книг из сканов с OCR слоем?

Выбор языка:

OCR форумы

Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

Всем привет!
Hi all!

Регистрация

Администратор

Библиотека

OCR форум › Создание и чтение электронных книг › Создание электронных изданий, форматирование и конвертирование файлов › Создание PDF-книг из сканов с OCR слоем?

(Модератор: Dmitry7)

‹ Предыдущая тема | Следующая тема ›

Переключение на Главную Страницу

Страниц: 1

Послать Тему

Печать

Создание PDF-книг из сканов с OCR слоем? (Прочитано 27001 раз)

Dmitry7

Модератор

Вне Форума

Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male

male

Создание PDF-книг из сканов с OCR слоем?
24.04.2012 :: 19:53:33

подскажите, пожалуйста, какой программой лучше всего добавлять OCR слой в PDF (в виде сканированных страниц) ?

и вообще, какая технология работы с PDF ? (с djvu понятно, есть программка djvuOCR и др.):

1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?
2. как и чем распознавать ? в каком виде сохранять результаты распознавания?
2. как и чем добавлять OCR-слой ?

« Последняя редакция: 24.04.2012 :: 21:40:39 от Dmitry7 »

"Если хочешь сделать что-то хорошо, сделай это сам!"

332371574

IP записан

Dmitry7 Модератор Вне Форума Соберем Серии "НВЖНиТ"! Сообщений: 5932 Санкт-Петербург Пол:	Re: Создание PDF-книг из сканов с OCR слоем Ответ #1 - 24.04.2012 :: 20:01:17 тут я что-то не очень понял http://www.djvu-scan.ru/forum/index.php?PHPSESSID=bc33a078e018d56311428d6f6b2c6c...
Наверх	"Если хочешь сделать что-то хорошо, сделай это сам!" IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #2 - 25.04.2012 :: 09:44:06

Dmitry7 писал(а) 24.04.2012 :: 19:53:33:

1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?
2. как и чем распознавать ? в каком виде сохранять результаты распознавания?
3. как и чем добавлять OCR-слой ?

1. FreePic2PDF
2. Акробат Х ClearScan
3. Акробат Х ClearScan
Разумеется, если нет каких-то особых, выходящих за рамки, требований. Полученный PDF при желании легко конвертируется в djvu с сохранением OCR. Надеюсь, править и корректировать текстовый слой после OCR, Вы не собираетесь?

IP записан

bolega

Гуру

Вне Форума

Сообщений: 772

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #3 - 25.04.2012 :: 16:12:13

Dmitry7 писал(а) 24.04.2012 :: 19:53:33:

1. чем лучше всего создавать PDF книги из обработанных в кромсаторе сканов?

pdf можно создать самим СК. Но конечно потребуется оптимизация полученного файла. Я ее делаю в акробате. Clearscan не использую, из-за его непредсказуемых (но редких) глюках.
Если на выходе - только страницы, без зон, то в принципе делать можно чем угодно. Если же есть зоны, то лучше сделать pdf СК, а потом уже оптимизировать. Иначе я не знаю, как например FreePic2PDF или другая прога поймет, что нужно добавлять такие-то зоны на такие-то страницы, да возможно еще с такой-то маской прозрачности (для зон произвольной формы). Можно конечно предварительно слить зоны с текстом, но тогда и страницы в pdf получатся цветными, что не есть хорошо (иначе зачем было их делить в СК). А если pdf делает СК, то ч/б текст он помещает в один слой, а картинки - в другой. Сжатие у них независимое, и регулируется опциями СК, вплоть до того, что для каждой картинки можно задать индивидуальную степень сжатия и формат (tif, jpj, jpg2000).

IP записан

Dmitry7

Модератор

Вне Форума

Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #4 - 25.04.2012 :: 19:58:46

GMAP писал(а) 25.04.2012 :: 09:44:06:

3. Акробат Х ClearScan
Разумеется, если нет каких-то особых, выходящих за рамки, требований. Полученный PDF при желании легко конвертируется в djvu с сохранением OCR. Надеюсь, править и корректировать текстовый слой после OCR, Вы не собираетесь?

а какое качество распознавания?

"Если хочешь сделать что-то хорошо, сделай это сам!"

332371574

IP записан

Jeffry

Постоялец

Вне Форума

Привет всем!

Сообщений: 81

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #5 - 25.04.2012 :: 21:02:37

C ClearScan нужно аккуратнее пользоваться.
Как-то в этом режиме прошивал OCR в книге с плохим качеством сканирования, так целые строки местами в книге исчезли, как и не бывало.

IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #6 - 26.04.2012 :: 10:08:27

Dmitry7 писал(а) 25.04.2012 :: 19:58:46:

а какое качество распознавания?

А какое Вам нужно? Говорить о качестве OCR текстового слоя бессмысленно по определению. OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.
Jeffry писал(а) 25.04.2012 :: 21:02:37:

C ClearScan нужно аккуратнее пользоваться. Как-то в этом режиме прошивал OCR в книге с плохим качеством сканирования, так целые строки местами в книге исчезли, как и не бывало.

Вы опоздали. Причины подобного поведения, связанного с кривыми pdf, давно найдены и устранены, а плохое качество сканов не для ClearScan.

IP записан

Dmitry7

Модератор

Вне Форума

Соберем Серии "НВЖНиТ"!

Сообщений: 5932
Санкт-Петербург
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #7 - 26.04.2012 :: 20:35:29

GMAP писал(а) 26.04.2012 :: 10:08:27:

А какое Вам нужно? Говорить о качестве OCR текстового слоя бессмысленно по определению. OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.

нужно примерно такое, какое дает FR8 без вычитки.

"Если хочешь сделать что-то хорошо, сделай это сам!"

332371574

IP записан

GMAP Постоялец Вне Форума Всем привет! Сообщений: 52 Somewhere there... Пол:	Re: Создание PDF-книг из сканов с OCR слоем? Ответ #8 - 26.04.2012 :: 22:09:31 Dmitry7 писал(а) 26.04.2012 :: 20:35:29: нужно примерно такое, какое дает FR8 без вычитки. Это расплывчатый критерий. Попробуйте сами, лучше один раз увидеть...
Наверх	IP записан

Jeffry

Постоялец

Вне Форума

Привет всем!

Сообщений: 81

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #9 - 29.04.2012 :: 07:57:35

Цитата:

подобного поведения, связанного с кривыми pdf, давно найдены и устранены

Опишите вкратце, в чем проблема была. А то с тех пор (года 2 уже) для меня ClearScan под запретом.
Цитата:

OCR либо вычитывается, долго и тщательно, либо о нем не задается никаких вопросов.

OCR либо вычитывается бегло, либо долго. Это и зависит от качества OCR.

IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #10 - 29.04.2012 :: 09:47:07

Jeffry писал(а) 29.04.2012 :: 07:57:35:

в чем проблема была

В некоторой кривизне pdf, касающейся невидимых областей страниц после разных операций. Когда начали внимательно исследовать причины пропадания строк, все тайное стало явным. Так или иначе, больше никто не жалуется на CS в Акробате Х.

Беглой вычитки не бывает, если она беглая, то она не вычитка.

IP записан

Владислав_72

Активист

Вне Форума

Сообщений: 345
Москва
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #11 - 29.04.2012 :: 16:04:44

Цитата:

Так или иначе, больше никто не жалуется на CS в Акробате Х.

Не знаю как в Акробате Х (я пока все еще юзаю обновляемый по сю пору Про 9.5.1), но меня изредка достает акробатовская ошибка (что при обычном OCR, что при CS) о невозможности распознавания при распознавании цветных разворотов А3 на 600дпи, отсканированных не целиком, а сшитых в фотошопе (или ином редакторе), причем серые и монохромные такие же развороты на 600дпи распознаются влет (равно как и все развороты на 300дпи, в т.ч. и цветные). Может в курсе, как с этим дело обстоит в Акробате Х, чтоб знать, что пора бы на него переходить ...

« Последняя редакция: 30.04.2012 :: 12:41:03 от Владислав_72 »

IP записан

Владислав_72

Активист

Вне Форума

Сообщений: 345
Москва
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #12 - 01.05.2012 :: 10:48:27

И еще заметил глюк Clearscan в моем акробате 9.5 (так и не исправляется до сих пор): если вдруг попадется хотя бы одна страница, которую данный режим не смог обработать (ошибка распознавания), то даже если все остальное обработано и распознано им корректно, размер файла не меняется (остается таким же, как и до распознавания этим режимом), помогает только перезагрузка акробата или обработка в этом режиме по частям, исключая сбойную(-ые) страницу(-ы).

IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #13 - 01.05.2012 :: 13:59:45

Владислав_72 писал(а) 29.04.2012 :: 16:04:44:

достает акробатовская ошибка (что при обычном OCR, что при CS) о невозможности распознавания при распознавании цветных разворотов А3 на 600дпи, отсканированных не целиком, а сшитых в фотошопе

Выложите пример, попробую, тогда смогу сказать определенно.

IP записан

Владислав_72

Активист

Вне Форума

Сообщений: 345
Москва
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #14 - 02.05.2012 :: 09:50:11

Вот одна из таких страниц: http://rghost.ru/37869999
склееный в фотошопе цветной разворот А3 из двух-трех кусков на 600дпи.
а вот сообщение ошибки акробата при любом виде распознавания: http://i37.fastpic.ru/big/2012/0502/ee/cbd8689bef00d97fc000af8604b491ee.png

IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #15 - 02.05.2012 :: 12:20:07

Акробат X не падает, все нормально. Простите, а что Вы хотели получить от pdf CS в данном конкретном случае? Волшебство, по которому схема станет векторной, как если бы ее рисовали в CAD программе? А может ожидали, что все номиналы станут векторными, текстовыми и можно будет задействовать поиск? Или ради кусочка текста с низким разрешением в левом нижнем углу? Так это легко делается, вопрос только в том - а зачем???
Обработка скана дает куда больше, сравните со своим по размеру файла и качеству, линейные размеры не изменились - http://rghost.ru/37871485 (600 dpi - http://rghost.ru/37872162)

« Последняя редакция: 02.05.2012 :: 13:04:17 от GMAP »

IP записан

Владислав_72

Активист

Вне Форума

Сообщений: 345
Москва
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #16 - 02.05.2012 :: 17:17:08

Цитата:

Акробат X не падает, все нормально

Т.е. все-таки распознает? Или просто не падает? Выражайтесь яснее, пожалуйста. Это важно, стоит ли мне переходить на новую версибю или все еще ждать нужного патча старой.
Цитата:

Простите, а что Вы хотели получить от pdf CS в данном конкретном случае? Волшебство, по которому схема станет векторной, как если бы ее рисовали в CAD программе? А может ожидали, что все номиналы станут векторными, текстовыми и можно будет задействовать поиск? Или ради кусочка текста с низким разрешением в левом нижнем углу? Так это легко делается, вопрос только в том - а зачем???
Обработка скана дает куда больше, сравните со своим по размеру файла и качеству, линейные размеры не изменились

Я хочу получить нормально ориентированную страницу с OCR (пусть и с ошибками, сшивка не всегда получается нормально выровнена) вот и все и безо всяких ваших ерничаний
насчет волшебства. И именно в акробате, и не надо мне настойчиво рекомендовать (как папеВладу) другой софт для работы с пдф. И мой пример, который вы обработали якобы с сохранением качества и уменьшением размера с моей точки зрения годится только в мусорку, вы качество исходного скана убили нафиг. Я-то надеялся, что кто-то сможет мне кое-что прояснить по акробату, но увы, мои надежды оказались бессмысленны, вы показали все, что смогли, больше желания общаться с вами на эту тему у меня нет.

IP записан

GMAP

Постоялец

Вне Форума

Всем привет!

Сообщений: 52
Somewhere there...
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #17 - 03.05.2012 :: 19:06:12

Владислав_72 писал(а) 02.05.2012 :: 17:17:08:

больше желания общаться с вами на эту тему у меня нет.

У меня создается неприятное впечатление, что на этом форуме, мягко говоря, весьма своеобразные критерии оценки качества сканов и подхода к программам. Что до общения - нет проблем, если не хотите, то более Вам отвечать не буду. Неотъемлемое право каждого считать свои сканы образцом. Но у других есть такое же право на противоположное мнение.

IP записан

Владислав_72

Активист

Вне Форума

Сообщений: 345
Москва
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #18 - 04.05.2012 :: 17:02:07

Цитата:

У меня создается неприятное впечатление, что на этом форуме, мягко говоря, весьма своеобразные критерии оценки качества сканов и подхода к программам

Я за критерии оценки качества других не отвечаю, только за себя. И свои сканы обязательным образцом для других тем более не считаю, и вполне способен понять, что мои критерии качества не совпадают с вашими, о чем выше и написал. И, кстати, я вас совсем не просил об обработке моего примера, это чисто ваша инициатива, мой вопрос касался только работы Акробата Х.
По мне вот это
http://i4.imageban.ru/out/2012/05/04/55cc2f1312f5ca8d72fe80ccb0fc2c66.jpg
куда более приятно воспринимается, чем ваши этот
http://i4.imageban.ru/out/2012/05/04/c4cf41b020ff21e9578c9a2d873601fc.jpg
и этот
http://i1.imageban.ru/out/2012/05/04/4d8a9cc7a6fe4d905b98171968a0f696.jpg
Возможно пример был не особо удачен, но я взял первое, что попалось под руку из разворотов, а размеры сканов меня мало волнуют, у меня есть куча разворотов с фото и прочей ненаучной и схемной графикой, то дрожь берет, что вы могли бы с нею сотворить при вашей обработке ...

IP записан

sea

Новичок

Вне Форума

Всем привет!

Сообщений: 1

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #19 - 08.06.2012 :: 17:52:20

Здравствуйте!
Имеется PDF с подложенным распознанным текстом, но картинки слишком тяжёлые. Есть ли возможность облегчить PDF, не пропуская его снова через OCR с распознаванием (в принципе, вариант получаемый в FineReader с настройкой "сбалансированный" вполне устроил бы, но сбивается уже правленный распознанный текст)?

IP записан

guru2002

Новичок

Вне Форума

Всем привет!

Сообщений: 6

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #20 - 03.04.2015 :: 22:51:04

bolega писал(а) 25.04.2012 :: 16:12:13:

pdf можно создать самим СК. Но конечно потребуется оптимизация полученного файла. Я ее делаю в акробате.

В чем заключается оптимизация? Можно по-подробнее плиз. - С этим ясно, это в смысле функционала Акробата Х.

Если сделать OCR в FR8, то где можно прочесть как вставить это в СК? --- Нашел, разобрался.

Спрашиваю это только как альтернативный ход к варианту "все в 1 стакане" = Adobe Acrobat Х. Полагаю просто, что FR лучше распознает.

http://www.lehigh.edu/~inmedia/media_resources/mc_scan_instr/Acrobat_OCR.pdf

Здесь полная инструкция на 6 стр.

Как описывали это на руборде, требовался плагин Imposal к Акробату.

Хочу разобраться, как лучше сделать книгу в PDF для международной библиотеки и научных контор -- там принимают только PDF. У библиотек договора только с Adobe, а не с правообладателями djvu -- из-за коммерческих соображений. Технические характеристики не решают. Предлагаю это как-то учитывать.

Для личных нужд можно конвертнуть PDF в DJVU утилитой PDF2DJVU (GUI) и самоудовлетвориться.
Но кто пишет для публикаций главный, основной формат PDF -- нравится это кому-то или нет.
Это просто международный стандарт науки и библиотек. А скока файл весит - 10 Мб или 300 Мб - это никого, именно никого, кроме российских энтузиастов, не интересует. Ну, еще правообладателей DJVU, не вылазящих из судов друг с другом пару десятков лет. - С учетом цены носителей информации вопрос давно закрыт и не актуален.

« Последняя редакция: 04.04.2015 :: 22:42:22 от guru2002 »

IP записан

Ustas

Постоялец

Вне Форума

даешь качественный OCR!

Сообщений: 176
Пол: male

male

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #21 - 18.11.2015 :: 16:43:16

Получается, для создания правильного *.pdf с ОСР цепочка выглядит:
- сканер+книга - Адоб Акробат Х?
а с использованием ФР как?

(тяжело ломать многолетние привычки, ох)
Буду признателен за ссылки, где можно почитать подробности и методики.

WWW

67730822

IP записан

slava_kry

Гуру

Вне Форума

Сообщений: 557

Re: Создание PDF-книг из сканов с OCR слоем?
Ответ #22 - 19.11.2015 :: 14:18:09

Зачем их вам ломать? Вы бы описали их сначала.

Вы смотрели на дату последних сообщений?

Сейчас ФР используется для создания ОСР, а потом его "подклеивают" в "картиночный" ПДФ.
Всё обычно упирается в обработку сканов между сканером и Акробатом. От неё зависит "сжимаемость" ПДФа.
На самом деле вариантов тьма... как было, так и остаётся. Все с нюансами.

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.

IP записан

chatt

Новичок

Вне Форума

Всем привет!

Сообщений: 15

Re: цЙТДАИЪЕ PDF-СИЪР ЪТ ЦСАИЙВ Ц OCR ЦУЙЕХ?
Ответ #23 - 28.05.2016 :: 01:12:16

Budte dobry, opishite proceduru sozdaniya pdf iz predvaritelno obrabotannyh skanov v ScanCromsator, tak chtob bez poter kachestva i vmenyaemym razmerom fajla.
I kak vnedrit v PDF tekstovyj sloj, chtob ne pereszhimat kartinki, a prosto vstavit ego v kartinochnyj pdf po analogii s DJVUOCR.
Nekotorye peregonyayut v pdf uzhe gotovyj djvu pri pomoschi DjVu Small Mod ili DjVuToy, no oni ne podderzhivayut kirillicu v ocr. Prihoditsya zanovo delat tekstovyj sloj dlya pdf, no ne yasno v chem.
Uzhe mnogo programm obnovilos, hotelos by poluchit aktualnuyu informaciyu po voprosu, vynesennomu v zagolovok temy.

chto-to s kodirovkami u vas, ne mogu normalno napisat`.

IP записан

balik2

Активист

Вне Форума

Всем привет!

Сообщений: 226
Пол: male

male

Re: цЙТДАИЪЕ PDF-СИЪР ЪТ ЦСАИЙВ Ц OCR ЦУЙЕХ?
Ответ #24 - 28.05.2016 :: 15:42:13

chatt писал(а) 28.05.2016 :: 01:12:16:

Budte dobry, opishite proceduru sozdaniya pdf iz predvaritelno obrabotannyh skanov v ScanCromsator, tak chtob bez poter kachestva i vmenyaemym razmerom fajla.
I kak vnedrit v PDF tekstovyj sloj, chtob ne pereszhimat kartinki, a prosto vstavit ego v kartinochnyj pdf po analogii s DJVUOCR.
Nekotorye peregonyayut v pdf uzhe gotovyj djvu pri pomoschi DjVu Small Mod ili DjVuToy, no oni ne podderzhivayut kirillicu v ocr. Prihoditsya zanovo delat tekstovyj sloj dlya pdf, no ne yasno v chem.
Uzhe mnogo programm obnovilos, hotelos by poluchit aktualnuyu informaciyu po voprosu, vynesennomu v zagolovok temy.

chto-to s kodirovkami u vas, ne mogu normalno napisat`.

в ScanCromsator отлично создаются pdf без чрезмероного пержима изображдений. когда обработали и перепроверили все страницы охраняете проект, далее file-create out task
во вкладке files выбираете формат pdf и пишете названиее файла чтото типа 1.pdf lfktt ;vtnt process и получаете pdf отличного качества. пс. что б это делать в сканкромсаторе нужно скачать на комп Kakadu61 и прописат его в настройках file-options-apps

IP записан

Переключение на Главную Страницу

Страниц: 1

Послать Тему

Печать

‹ Предыдущая тема | Следующая тема ›

« Главная

‹ Раздел

Наверх этой страницы

OCR форум » Powered by YaBB 2.5.2!
YaBB Forum Software © 2000-2024. All Rights Reserved.