OCR форум - Вставка OCR в PDF

AAW

Патриарх

Вне Форума

Старую детскую и НП литературу
ничем не заменить

Сообщений: 5603
Екатеринбург
Пол: male

Вставка OCR в PDF
07.02.2018 :: 11:10:06

Мне тут прислали выжимку с руборды и попросили сохранить для потомства. Сильно редкая инфа.
Суть в том, что после FR выходной PDF с двумя слоями сохраняется с некомпрессированными картинками. Была поставлена задача ужать обратно либо вставить слой текста обратно в первоначальный нераспознанный документ. Варианты решений:
------------
qzerss
Цитата:
каким способом можно вставить OCR - в pdf
XChange PDF-Tools > Перекрывающий PDF
Callas PDF Toolbox > Tools > Switchboard > Arrange > Sandwich
Nuance PDF Converter Pro 7.3 Rus > Файл > Создать PDF > Наложить несколько файлов
Акробатовскими плагинами:
Imposal > Overlay
Quite Imposing Plus > n-up pages

----
Автор: Astra55, Отправлено:09:54 21-05-2014

Операции с внедрением текстового слоя из FR в djvu файлы требуют утилит и ваще, массу различных телодвижений. Вот пример аналогичной операции, но с PDF файлами, использовал Acrobat 11.0.7 и FineReader 12.
1. Удалить текст из PDF с OCR слоем, используя только Acrobat:
- открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем.

2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.

Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет

----
Автор: ComboFZ, Отправлено:04:41 10-01-2013

juvaforza

Если в PDF сканированные изображения в jpeg или jpeg2000, то получить текстовый слой в нём проще в Акробате (для v.10 Rus):
закладка Инструменты > Распознавание текста > В этом файле > Изменить > PDF на выходе: Изображение с поиском (точно) > Ok > Сохранить. Пересжатия картинок не будет.

Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети).

Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше):
закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute.
Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF.
Дальше.
Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем.

Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом.

Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.

----
slava_kry

Я же использую Каллас ПДФ ТулБокс

Но есть ещё один момент. Иногда шрифт слетает, вернее его русская кодировка и вместо букв ты видишь загагулины. Так вот для исправления этой напасти я использую подмену шрифта с помощью плагина для Акробата - Enfocus PitStop.

Само же распознавание текста лучше делать так:
Обрабатываешь сканы, т.е. приводишь их к одному знаменателю и потом на них натравливаешь Readiris Corporate 16 именно Корпорейт, не меньше.
Эта шняга способна работать в фоне и сейчас лучше ФайнРидера, но если ошибается, то сложнее исправить, чем в ФР... Но ошибается дюже редко именно с текстом.
В результате у тебя получается постраничный ПДФ, который объединяется Акробатом и сразу смотрится не слетел ли шрифт.

--
ComboFZ

xanxan

Цитата:
...выход который нашел, удалять картинки в новом файле и вставлять их из старого.
Делаю это в PDF-XChange Editor.
Но иногда попадаются файлы где это не получается, картинки накладываются друг на друга и файл становится мутным.

В старом файле бинаризированный (ч.б.) растровый текст в виде маски (имеет прозрачность в условно белых полях), соответственно OCR-текст в финальном файле просвечивает через него.
Здесь два выхода.
Либо в финальном файле отключить заливку шрифтов в OCR-тексте в том же PDF-XChange Editor 7.0/8.0.
Либо в старом файле (оригинале), перед его наложением на файл с OCR-текстом, сделать белую фоновую векторную заливку. Тогда OCR-текст не будет просвечивать через маску бинаризированного ч.б. текста.

На примере PDF-XChange Editor 7.0.

1. Отключение векторной заливки в шрифтах:

Закидываем в программу PDF-документ с чистым OCR-текстом (т.е. без картинок).

В верхней закладке Главная > Вид активируем иконки Контент и Свойства, откроются соответствующие боковые панели.

В левой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Текст. Выделятся все текстовые объекты (шрифты) во всём документе PDF.

В правой боковой панели Свойства в Цвете заливки ставим: Пусто.

---------------------------
2. Наложение белой (любой) векторной заливки между OCR-текстом и оригинальным растром (сканами/картинками).

Забрасываем в PDF-XChange два документа: один - с чистым OCR-текстом, другой - оригинальный PDF с картинками/сканами.
Активируем вкладку с оригинальным PDF.

В верхней закладке Организация > Фон > Добавить в появившемся модуле делаем фоновую белую (любую по цвету) векторную заливку для всех страниц оригинального PDF > OK.*

В левой боковой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Все. Выделятся ВСЕ объекты на всех страницах оригинального PDF. Копируем их в буфер обмена (Ctrl+C).

Активируем вкладку с OCR-текстом.
Вставляем (накладываем) все объекты из буфера обмена на OCR-текст клавами Shift+Insert (для PDF-XChange 8.0 сочетание классическое - Ctrl+V).

Сохраняем итоговый документ через Сохранить как.

zorro04 Постоялец Вне Форума Всем привет! Сообщений: 115	Re: Вставка OCR в PDF Ответ #4 - 20.11.2018 :: 17:00:18 PDF-Tools 7
Наверх	IP записан

Dmitry7 Модератор Вне Форума Соберем Серии "НВЖНиТ"! Сообщений: 5944 Санкт-Петербург Пол:	Re: Вставка OCR в PDF Ответ #5 - 20.11.2018 :: 20:41:57 zorro04 писал(а) 20.11.2018 :: 17:00:18: PDF-Tools 7 а вот выложили PDF Tools v9.1 https://rutracker.org/forum/viewtopic.php?t=5290644
Наверх	"Если хочешь сделать что-то хорошо, сделай это сам!" IP записан

zorro04 Постоялец Вне Форума Всем привет! Сообщений: 115	Re: Вставка OCR в PDF Ответ #6 - 20.11.2018 :: 21:27:34 Dmitry7 писал(а) 20.11.2018 :: 20:41:57: а вот выложили PDF Tools v9.1 https://rutracker.org/forum/viewtopic.php?t=5290644 Это не то. Нужен тот, который от tracker-software. Эта же контора и PDF-XChange Editor v.6.0/v.7.0 делает
Наверх	IP записан