OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Вставка OCR в PDF (Прочитано 1102 раз)
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3510
Екатеринбург
Пол: male
Вставка OCR в PDF
07.02.2018 :: 11:09:41
 
Мне тут прислали выжимку с руборды и попросили сохранить для потомства. Сильно редкая инфа.
Суть в том, что после FR выходной PDF с двумя слоями сохраняется с некомпрессированными картинками. Была поставлена задача ужать обратно либо вставить слой текста обратно в первоначальный нераспознанный документ. Варианты решений:
------------
qzerss
Цитата:
каким способом можно вставить OCR - в pdf
XChange PDF-Tools > Перекрывающий PDF
Callas PDF Toolbox > Tools > Switchboard > Arrange > Sandwich
Nuance PDF Converter Pro 7.3 Rus > Файл > Создать PDF > Наложить несколько файлов
Акробатовскими плагинами:
Imposal > Overlay
Quite Imposing Plus > n-up pages

----
Автор: Astra55, Отправлено:09:54 21-05-2014

Операции с внедрением текстового слоя из FR в djvu файлы требуют утилит и ваще, массу различных телодвижений. Вот пример аналогичной операции, но с PDF файлами, использовал Acrobat 11.0.7 и FineReader 12.
1. Удалить текст из PDF с OCR слоем, используя только Acrobat:
- открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем.

2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.

Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет

----
Автор: ComboFZ, Отправлено:04:41 10-01-2013

juvaforza

Если в PDF сканированные изображения в jpeg или jpeg2000, то получить текстовый слой в нём проще в Акробате (для v.10 Rus):
закладка Инструменты > Распознавание текста > В этом файле > Изменить > PDF на выходе: Изображение с поиском (точно) > Ok > Сохранить. Пересжатия картинок не будет.

Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети).

Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше):
закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute.
Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF.
Дальше.
Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем.

Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом.

Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.

----
slava_kry

Я же использую Каллас ПДФ ТулБокс

Но есть ещё один момент. Иногда шрифт слетает, вернее его русская кодировка и вместо букв ты видишь загагулины. Так вот для исправления этой напасти я использую подмену шрифта с помощью плагина для Акробата - Enfocus PitStop.

Само же распознавание текста лучше делать так:
Обрабатываешь сканы, т.е. приводишь их к одному знаменателю и потом на них натравливаешь Readiris Corporate 16 именно Корпорейт, не меньше.
Эта шняга способна работать в фоне и сейчас лучше ФайнРидера, но если ошибается, то сложнее исправить, чем в ФР... Но ошибается дюже редко именно с текстом.
В результате у тебя получается постраничный ПДФ, который объединяется Акробатом и сразу смотрится не слетел ли шрифт.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Активист
***
Вне Форума


Всем привет!

Сообщений: 343
Re: Вставка OCR в PDF
Ответ #1 - 07.02.2018 :: 12:34:16
 
Можно я свои 5 копеек с той же руборды добавлю.

Chatt -> daa  Отправлено: 20:22 03-02-2017 Цитата:
А по объединенной инструкции ComboFZ и Astra55 не пробовали? http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=17599&start=1020 [?]  Если найдете решение лучше, отпишите, пожалуйста.


daa -> Chatt   Отправлено: 08:05 04-02-2017 Цитата:
В итоге, я по методе ComboFZ делал. Что и как делал, записал:
    https://yadi.sk/i/lSwInKWx3SAfvE


Тут имхо интересны пара нюансов:
а) Текстовый слой ФР 12 в джву будет зависеть от качества джву.
б) Порядок действий в  Callas PDF Toolbox 5.0 был немного другой по сравнению с рекомендованным: сначала я открывал  пдф-ку с текстовым слоем, а потом через Sandwich накладывал сверху пдф-ку с картинками.
в) Действия же по методике Astra55 (разделение слоёв) приводили к файлам конским размеров, но скорее всего я что-то не так и не совсем в той версии акробата (хотя это и была тоже 11-я) делал.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3510
Екатеринбург
Пол: male
Re: Вставка OCR в PDF
Ответ #2 - 09.06.2018 :: 01:43:15
 
Вот мои заметки про преобразование слоя OCR из djvu в pdf. На руборде спрашивали, можно ли перенести слой текста.
https://drive.google.com/open?id=1K8ZRlzvhyD0fguMnggCbPHIr7kvmYrcJ


Можно ещё с помощью djvutoy, надо выставить кодовую таблицу Chinese simplified. Но только если заново распознать , с помощью MODI от Майкрософта. Просто перенос пока что невозможен.
Наверх
« Последняя редакция: 09.06.2018 :: 06:51:26 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 312
Re: Вставка OCR в PDF
Ответ #3 - Вчера :: 07:12:48
 
от ComboFZ

C выходом PDF-XChange Editor v.6.0/v.7.0 появилась возможность быстрого извлечения OCR-текста из PDF сделанного в FineReader. И быстрого наложения PDF с подготовленными картинками/сканами на PDF с извлечённым OCR-текстом.

Быстрое извлечение OCR-текста из документов PDF созданных в FineReader.
Открываем в PDF-XChange Editor 7.0 распознанный в FineReader (как текст под изображением) документ PDF.

В окне программы внизу, слева, жмём на иконку шестерёнки Параметры > Контент.
Слева откроется панель Содержание.

Жмём в панели Содержание, вверху, на иконку шестерёнки Параметры > Выбранные > Изображения (выделятся все растровые изображения в PDF).
Стучим по клавише Delete для удаления картинок.
Сохраняем документ с OCR-текстом через Сохранить как.

Быстрое наложение картинок (сканов) на OCR-текст в документах PDF.
Открываем в PDF-XChange Editor 7.0 два документа PDF:
один - с подготовленными картинками/сканами
другой - с OCR-текстом

Окно (вкладку) с картинками делаем активным.
В панели Содержание (см. выше как открыть) > Параметры > Выбранные > Изображения
(выделятся все растровые изображения в PDF)
клавишами Ctrl+С копируем картинки в буфер обмена.

Вставляем картинки из буфера обмена (Shift+Insert) в окно с OCR-текстом.
При вставке должна быть активна та страничка в окне, с которой будут начинаться картинки в документе.
Сохраняем документ через Сохранить как.

-------------------
Более короткий путь (не используя промежуточное сохранение OCR-текста).
Закинуть в программу распознанный PDF от FineReader, удалить все картинки (как это делать см. выше).
Закинуть в программу документ PDF с подготовленными картинками/сканами, скопировать сканы в буфер обмена (как это делать см. выше).
Вставить (наложить) сканы из буфера обмена (Shift+Insert) в PDF от FineReader.
При вставке должна быть активна та страничка в окне, с которой будут начинаться картинки в документе.
Сохранить документ через Сохранить как.
-------------------
Не сбрасываем со счетов программку PDF-Tools 4, т.к. там можно покопаться в настройках наложения PDF.
Наверх
 
 
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 81
Re: Вставка OCR в PDF
Ответ #4 - Вчера :: 16:59:53
 
PDF-Tools 7
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4301
Санкт-Петербург
Re: Вставка OCR в PDF
Ответ #5 - Вчера :: 20:41:32
 
zorro04 писал(а) Вчера :: 16:59:53:
PDF-Tools 7

а вот выложили PDF Tools v9.1
https://rutracker.org/forum/viewtopic.php?t=5290644
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 81
Re: Вставка OCR в PDF
Ответ #6 - Вчера :: 21:27:09
 
Dmitry7 писал(а) Вчера :: 20:41:32:
а вот выложили PDF Tools v9.1
https://rutracker.org/forum/viewtopic.php?t=5290644

Это не то.  Нужен тот, который от tracker-software. Эта же контора и PDF-XChange Editor v.6.0/v.7.0 делает Очень довольный
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать