AAW
Патриарх
На Форуме
Старую детскую и НП литературу ничем не заменить
Сообщений: 5603
Екатеринбург
Пол:
|
Мне тут прислали выжимку с руборды и попросили сохранить для потомства. Сильно редкая инфа. Суть в том, что после FR выходной PDF с двумя слоями сохраняется с некомпрессированными картинками. Была поставлена задача ужать обратно либо вставить слой текста обратно в первоначальный нераспознанный документ. Варианты решений: ------------ qzerss Цитата: каким способом можно вставить OCR - в pdf XChange PDF-Tools > Перекрывающий PDF Callas PDF Toolbox > Tools > Switchboard > Arrange > Sandwich Nuance PDF Converter Pro 7.3 Rus > Файл > Создать PDF > Наложить несколько файлов Акробатовскими плагинами: Imposal > Overlay Quite Imposing Plus > n-up pages ---- Автор: Astra55, Отправлено:09:54 21-05-2014 Операции с внедрением текстового слоя из FR в djvu файлы требуют утилит и ваще, массу различных телодвижений. Вот пример аналогичной операции, но с PDF файлами, использовал Acrobat 11.0.7 и FineReader 12. 1. Удалить текст из PDF с OCR слоем, используя только Acrobat: - открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем. 2. Перенос OCR текста из FineReader в файл PDF: - если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно; - открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf; - Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf; - Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf. - Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay. Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет ---- Автор: ComboFZ, Отправлено:04:41 10-01-2013 juvaforza Если в PDF сканированные изображения в jpeg или jpeg2000, то получить текстовый слой в нём проще в Акробате (для v.10 Rus): закладка Инструменты > Распознавание текста > В этом файле > Изменить > PDF на выходе: Изображение с поиском (точно) > Ok > Сохранить. Пересжатия картинок не будет. Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети). Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше): закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute. Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF. Дальше. Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем. Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом. Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.
---- slava_kry
Я же использую Каллас ПДФ ТулБокс
Но есть ещё один момент. Иногда шрифт слетает, вернее его русская кодировка и вместо букв ты видишь загагулины. Так вот для исправления этой напасти я использую подмену шрифта с помощью плагина для Акробата - Enfocus PitStop.
Само же распознавание текста лучше делать так: Обрабатываешь сканы, т.е. приводишь их к одному знаменателю и потом на них натравливаешь Readiris Corporate 16 именно Корпорейт, не меньше. Эта шняга способна работать в фоне и сейчас лучше ФайнРидера, но если ошибается, то сложнее исправить, чем в ФР... Но ошибается дюже редко именно с текстом. В результате у тебя получается постраничный ПДФ, который объединяется Акробатом и сразу смотрится не слетел ли шрифт.
-- ComboFZ
xanxan
Цитата: ...выход который нашел, удалять картинки в новом файле и вставлять их из старого. Делаю это в PDF-XChange Editor. Но иногда попадаются файлы где это не получается, картинки накладываются друг на друга и файл становится мутным.
В старом файле бинаризированный (ч.б.) растровый текст в виде маски (имеет прозрачность в условно белых полях), соответственно OCR-текст в финальном файле просвечивает через него. Здесь два выхода. Либо в финальном файле отключить заливку шрифтов в OCR-тексте в том же PDF-XChange Editor 7.0/8.0. Либо в старом файле (оригинале), перед его наложением на файл с OCR-текстом, сделать белую фоновую векторную заливку. Тогда OCR-текст не будет просвечивать через маску бинаризированного ч.б. текста.
На примере PDF-XChange Editor 7.0. 1. Отключение векторной заливки в шрифтах: Закидываем в программу PDF-документ с чистым OCR-текстом (т.е. без картинок). В верхней закладке Главная > Вид активируем иконки Контент и Свойства, откроются соответствующие боковые панели. В левой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Текст. Выделятся все текстовые объекты (шрифты) во всём документе PDF. В правой боковой панели Свойства в Цвете заливки ставим: Пусто. --------------------------- 2. Наложение белой (любой) векторной заливки между OCR-текстом и оригинальным растром (сканами/картинками).
Забрасываем в PDF-XChange два документа: один - с чистым OCR-текстом, другой - оригинальный PDF с картинками/сканами. Активируем вкладку с оригинальным PDF. В верхней закладке Организация > Фон > Добавить в появившемся модуле делаем фоновую белую (любую по цвету) векторную заливку для всех страниц оригинального PDF > OK.* В левой боковой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Все. Выделятся ВСЕ объекты на всех страницах оригинального PDF. Копируем их в буфер обмена (Ctrl+C). Активируем вкладку с OCR-текстом. Вставляем (накладываем) все объекты из буфера обмена на OCR-текст клавами Shift+Insert (для PDF-XChange 8.0 сочетание классическое - Ctrl+V). Сохраняем итоговый документ через Сохранить как.
|