OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Вставка OCR в PDF (Прочитано 15030 раз)
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5431
Екатеринбург
Пол: male
Вставка OCR в PDF
07.02.2018 :: 11:09:41
 
Мне тут прислали выжимку с руборды и попросили сохранить для потомства. Сильно редкая инфа.
Суть в том, что после FR выходной PDF с двумя слоями сохраняется с некомпрессированными картинками. Была поставлена задача ужать обратно либо вставить слой текста обратно в первоначальный нераспознанный документ. Варианты решений:
------------
qzerss
Цитата:
каким способом можно вставить OCR - в pdf
XChange PDF-Tools > Перекрывающий PDF
Callas PDF Toolbox > Tools > Switchboard > Arrange > Sandwich
Nuance PDF Converter Pro 7.3 Rus > Файл > Создать PDF > Наложить несколько файлов
Акробатовскими плагинами:
Imposal > Overlay
Quite Imposing Plus > n-up pages

----
Автор: Astra55, Отправлено:09:54 21-05-2014

Операции с внедрением текстового слоя из FR в djvu файлы требуют утилит и ваще, массу различных телодвижений. Вот пример аналогичной операции, но с PDF файлами, использовал Acrobat 11.0.7 и FineReader 12.
1. Удалить текст из PDF с OCR слоем, используя только Acrobat:
- открыть файл в Acrobat - Preflight - Create PDF layer - Put all text object on a layer - сохранить под другим именем - Layers - выбрать текстовый слой - снять показ текстового слоя - Flatten Layers, сохранить PDF файл под другим именем.

2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.

Разумеется, имена файлов выбираются по желанию, никакого волшебства в показанных примерах нет

----
Автор: ComboFZ, Отправлено:04:41 10-01-2013

juvaforza

Если в PDF сканированные изображения в jpeg или jpeg2000, то получить текстовый слой в нём проще в Акробате (для v.10 Rus):
закладка Инструменты > Распознавание текста > В этом файле > Изменить > PDF на выходе: Изображение с поиском (точно) > Ok > Сохранить. Пересжатия картинок не будет.

Так как в FineReader 11 распознование точнее, удобна связка FR + Callas PDF Toolbox v5.0 Portable (легко найти в сети).

Открываем в Callas PDF Toolbox документ PDF с текстовым ocr-слоем полученным от FR (текст под изображением, оригин. размер бумаги, исходное разрешение картинок, кач. 40% и меньше):
закладка Tools > Switchboard > Arrange > Slice > Check: Text Objects > Execute.
Программа сохранит PDF только с изображениями от FR (как правило, не нужен). Callas не закрываем, в нём два документа, один с изображениями (можно удалить), другой - модифицированный, с текстом. Сохраняем документ с текстом File > Save, смотрим, он должен резко похудеть в размере, внутри текст без картинок. Если размер сохраненного PDF с текстом не уменьшился (такое иногда случается для jpeg CMYK, jpeg2000), значит нужна оптимизация в Акробате, чтобы удалить скрытые изображения из PDF.
Дальше.
Закидываем в Callas документ PDF с подготовленными изображениями в который хотим внедрить текстовый слой. В окне программы документ с текстом OCR делаем активным. Переходим в Switchboard > Arrange > Sandwich, жмем Execute > File > Save As... Получаем PDF с оригинальными изображениями и текстовым OCR-слоем.

Возможен вариант, когда в Arrange > Slice извлекаются не текстовые объекты, а наоборот - изображения, в этом случае снова получаем два документа с изображениями и текстом.

Возможен вариант с подменой картинок без пересжатия. В программе открываются сразу оба документа PDF: один - Original.pdf с подготовленными изображениями, другой - от FineReader с картинками и OCR-слоем (активен). Переходим в Switchboard > Versioning > Create single version. Replase & Wich: greyscale image (или Color images, несколько позиций на выбор), Document: Original.pdf. Жмем Execute > File > Save As.... В итоге в документе от FineReader картинки будут заменены картинками из Original.pdf.

----
slava_kry

Я же использую Каллас ПДФ ТулБокс

Но есть ещё один момент. Иногда шрифт слетает, вернее его русская кодировка и вместо букв ты видишь загагулины. Так вот для исправления этой напасти я использую подмену шрифта с помощью плагина для Акробата - Enfocus PitStop.

Само же распознавание текста лучше делать так:
Обрабатываешь сканы, т.е. приводишь их к одному знаменателю и потом на них натравливаешь Readiris Corporate 16 именно Корпорейт, не меньше.
Эта шняга способна работать в фоне и сейчас лучше ФайнРидера, но если ошибается, то сложнее исправить, чем в ФР... Но ошибается дюже редко именно с текстом.
В результате у тебя получается постраничный ПДФ, который объединяется Акробатом и сразу смотрится не слетел ли шрифт.

--
ComboFZ

xanxan

Цитата:
...выход который нашел, удалять картинки в новом файле и вставлять их из старого. 
Делаю это в PDF-XChange Editor. 
Но иногда попадаются файлы где это не получается, картинки накладываются друг на друга и файл становится мутным.

В старом файле бинаризированный (ч.б.) растровый текст в виде маски (имеет прозрачность в условно белых полях), соответственно OCR-текст в финальном файле просвечивает через него.
Здесь два выхода.
Либо в финальном файле отключить заливку шрифтов в OCR-тексте в том же PDF-XChange Editor 7.0/8.0.
Либо в старом файле (оригинале), перед его наложением на файл с OCR-текстом, сделать белую фоновую векторную заливку. Тогда OCR-текст не будет просвечивать через маску бинаризированного ч.б. текста.

На примере PDF-XChange Editor 7.0.

1. Отключение векторной заливки в шрифтах:

Закидываем в программу PDF-документ с чистым OCR-текстом (т.е. без картинок).

В верхней закладке Главная > Вид активируем иконки Контент и Свойства, откроются соответствующие боковые панели.

В левой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Текст. Выделятся все текстовые объекты (шрифты) во всём документе PDF.

В правой боковой панели Свойства в Цвете заливки ставим: Пусто.

---------------------------
2. Наложение белой (любой) векторной заливки между OCR-текстом и оригинальным растром (сканами/картинками).

Забрасываем в PDF-XChange два документа: один - с чистым OCR-текстом, другой - оригинальный PDF с картинками/сканами.
Активируем вкладку с оригинальным PDF.

В верхней закладке Организация > Фон > Добавить в появившемся модуле делаем фоновую белую (любую по цвету) векторную заливку для всех страниц оригинального PDF > OK.*

В левой боковой панели Содержание по иконке с шестерёнкой заходим в Выбранные > Все. Выделятся ВСЕ объекты на всех страницах оригинального PDF. Копируем их в буфер обмена (Ctrl+C).

Активируем вкладку с OCR-текстом.
Вставляем (накладываем) все объекты из буфера обмена на OCR-текст клавами Shift+Insert (для PDF-XChange 8.0 сочетание классическое - Ctrl+V).

Сохраняем итоговый документ через Сохранить как.
Наверх
« Последняя редакция: 06.04.2020 :: 07:56:03 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 855
Re: Вставка OCR в PDF
Ответ #1 - 07.02.2018 :: 12:34:16
 
Можно я свои 5 копеек с той же руборды добавлю.

Chatt -> daa  Отправлено: 20:22 03-02-2017 Цитата:
А по объединенной инструкции ComboFZ и Astra55 не пробовали? http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=17599&start=1020 [?]  Если найдете решение лучше, отпишите, пожалуйста.


daa -> Chatt   Отправлено: 08:05 04-02-2017 Цитата:
В итоге, я по методе ComboFZ делал. Что и как делал, записал:
    https://yadi.sk/i/lSwInKWx3SAfvE


Тут имхо интересны пара нюансов:
а) Текстовый слой ФР 12 в джву будет зависеть от качества джву.
б) Порядок действий в  Callas PDF Toolbox 5.0 был немного другой по сравнению с рекомендованным: сначала я открывал  пдф-ку с текстовым слоем, а потом через Sandwich накладывал сверху пдф-ку с картинками.
в) Действия же по методике Astra55 (разделение слоёв) приводили к файлам конским размеров, но скорее всего я что-то не так и не совсем в той версии акробата (хотя это и была тоже 11-я) делал.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5431
Екатеринбург
Пол: male
Re: Вставка OCR в PDF
Ответ #2 - 09.06.2018 :: 01:43:15
 
Вот мои заметки про преобразование слоя OCR из djvu в pdf. На руборде спрашивали, можно ли перенести слой текста.
https://drive.google.com/open?id=1K8ZRlzvhyD0fguMnggCbPHIr7kvmYrcJ


Можно ещё с помощью djvutoy, надо выставить кодовую таблицу Chinese simplified. Но только если заново распознать , с помощью MODI от Майкрософта. Просто перенос пока что невозможен.

upd

в djvutoy с июня 2019 года можно нормально переводить текстовый слой русских букв в pdf.
Наверх
« Последняя редакция: 06.04.2020 :: 07:54:19 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Вставка OCR в PDF
Ответ #3 - 20.11.2018 :: 07:12:48
 
от ComboFZ

C выходом PDF-XChange Editor v.6.0/v.7.0 появилась возможность быстрого извлечения OCR-текста из PDF сделанного в FineReader. И быстрого наложения PDF с подготовленными картинками/сканами на PDF с извлечённым OCR-текстом.

Быстрое извлечение OCR-текста из документов PDF созданных в FineReader.
Открываем в PDF-XChange Editor 7.0 распознанный в FineReader (как текст под изображением) документ PDF.

В окне программы внизу, слева, жмём на иконку шестерёнки Параметры > Контент.
Слева откроется панель Содержание.

Жмём в панели Содержание, вверху, на иконку шестерёнки Параметры > Выбранные > Изображения (выделятся все растровые изображения в PDF).
Стучим по клавише Delete для удаления картинок.
Сохраняем документ с OCR-текстом через Сохранить как.

Быстрое наложение картинок (сканов) на OCR-текст в документах PDF.
Открываем в PDF-XChange Editor 7.0 два документа PDF:
один - с подготовленными картинками/сканами
другой - с OCR-текстом

Окно (вкладку) с картинками делаем активным.
В панели Содержание (см. выше как открыть) > Параметры > Выбранные > Изображения
(выделятся все растровые изображения в PDF)
клавишами Ctrl+С копируем картинки в буфер обмена.

Вставляем картинки из буфера обмена (Shift+Insert) в окно с OCR-текстом.
При вставке должна быть активна та страничка в окне, с которой будут начинаться картинки в документе.
Сохраняем документ через Сохранить как.

-------------------
Более короткий путь (не используя промежуточное сохранение OCR-текста).
Закинуть в программу распознанный PDF от FineReader, удалить все картинки (как это делать см. выше).
Закинуть в программу документ PDF с подготовленными картинками/сканами, скопировать сканы в буфер обмена (как это делать см. выше).
Вставить (наложить) сканы из буфера обмена (Shift+Insert) в PDF от FineReader.
При вставке должна быть активна та страничка в окне, с которой будут начинаться картинки в документе.
Сохранить документ через Сохранить как.
-------------------
Не сбрасываем со счетов программку PDF-Tools 4, т.к. там можно покопаться в настройках наложения PDF.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 115
Re: Вставка OCR в PDF
Ответ #4 - 20.11.2018 :: 16:59:53
 
PDF-Tools 7
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Вставка OCR в PDF
Ответ #5 - 20.11.2018 :: 20:41:32
 
zorro04 писал(а) 20.11.2018 :: 16:59:53:
PDF-Tools 7

а вот выложили PDF Tools v9.1
https://rutracker.org/forum/viewtopic.php?t=5290644
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 115
Re: Вставка OCR в PDF
Ответ #6 - 20.11.2018 :: 21:27:09
 
Dmitry7 писал(а) 20.11.2018 :: 20:41:32:
а вот выложили PDF Tools v9.1
https://rutracker.org/forum/viewtopic.php?t=5290644

Это не то.  Нужен тот, который от tracker-software. Эта же контора и PDF-XChange Editor v.6.0/v.7.0 делает Очень довольный
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5431
Екатеринбург
Пол: male
Re: Вставка OCR в PDF
Ответ #7 - 27.12.2022 :: 13:50:35
 
любопытный момент вскрылся, указал shch_vg на руборде: при копировании текстового слоя со структурой (абзацами) из djvu в pdf пропадает структура. Остаются отдельные слова.
И мне пока еще не удалось найти способа соединения аккуратного pdf (с jbig2, с малоцветкой и тэ пэ) и текстового слоя из ФР. Шаг влево-вправо, и структура портится.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #8 - 18.02.2023 :: 11:49:45
 
AAW писал(а) 27.12.2022 :: 13:50:35:
мне пока еще не удалось найти способа соединения аккуратного pdf (с jbig2, с малоцветкой и тэ пэ) и текстового слоя из ФР.

Т.е. background/stamp из PDFTK Builder не прокатывает?
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5431
Екатеринбург
Пол: male
Re: Вставка OCR в PDF
Ответ #9 - 19.02.2023 :: 09:34:27
 
zvezdochiot писал(а) 18.02.2023 :: 11:49:45:
Т.е. background/stamp из PDFTK Builder не прокатывает?

это наслоение задника. А мне надо наслоение текстового слоя плюс структуры документа. Другой взгляд.
Хотя... попробую. Вдруг в этом монстрике иначе решён вопрос наслоения.

Честно говоря, мне с наскоку не хватает мозгов даже пробные документы качественно подготовить. Надо все дела отодвинуть и полдня разбору полётов посвятить. Пока не могу.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #10 - 19.02.2023 :: 10:23:33
 
Я думаю, что причина вот в чем. В djvu создавать текстовый слой намного легче: указал значение слова, координаты и габариты слова и все. Добавил в нужное место символ окончания абзаца или что-то подобное. В pdf так не прокатит, там можно либо по словам, либо по абзацам. Но в обоих случаях габариты слова задать невозможно, там такого нет. Нужно самому подбирать размер шрифта, такой, чтобы он максимально соответствовал габариту слова, который выдал OCR. Кроме этого, для корректного расположения текста в pdf нужно знать положение базовой линии добавляемого текста. Если вносить текст не по словам, а по абзацам, или по предложениям, то расстояние между словами (а также перенос слов на следующую строку) будет определяться самим шрифтом, а не программой, которая генерирует слой. В общем случае совпадения не будет. Чтобы оно было, нужно идеально подбирать не только размер шрифта, но и сам шрифт, а также правильно рассчитать базовую линию каждой строки, примерно так, как это делает FR.
Это я так представляю. Возможно, я неправ.

AAW писал(а) 27.12.2022 :: 13:50:35:
любопытный момент вскрылся, указал shch_vg на руборде: при копировании текстового слоя со структурой (абзацами) из djvu в pdf пропадает структура. Остаются отдельные слова.
И мне пока еще не удалось найти способа соединения аккуратного pdf (с jbig2, с малоцветкой и тэ пэ) и текстового слоя из ФР. Шаг влево-вправо, и структура портится.

Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5431
Екатеринбург
Пол: male
Re: Вставка OCR в PDF
Ответ #11 - 19.02.2023 :: 10:37:32
 
нет, причина в пренебрежении данными о структуре документа. В стандарте pdf есть специальные теги, маркирующие абзацы, колонтитулы, графики и прочие элементы структуры, в том числе можно своих собственных нагенерить, определив именования по отношению к базовому дереву документа (страницам и проч.). Их при копировании текста из djvu в pdf надо создать с нуля, взяв за первоисточник дерево ocr-слоя джву (страница, параграф, и т.д.). Явно очень несложно, но пока что кроме абби никто этим не заморочился (
UPD2
"этим" - ведением в своей программе дерева структуры изменяемого документа). И при попытке копирования pdf->pdf на структуру чихают тоже. Что, в целом, разумно: структура может быть весьма разветвленной, и надо как-то ее обрубание совместить с логикой выдирания текста.
Не так все в общем-то просто, да. Но решать проблему надо - для копипастеров это серьезная заморочка, отсутствие структуры.

UPD
то есть в парсере проектов ФР от NME этот вопрос не проработан, вот я что хочу сказать.
Наверх
« Последняя редакция: 19.02.2023 :: 10:51:04 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #12 - 19.02.2023 :: 10:41:30
 
bolega писал(а) 19.02.2023 :: 10:23:33:
Это я так представляю. Возможно, я неправ.

Ты прав, что неправ. Есть такая штука: setHorizScale(100.0 * box_width / font_width) (reportlab). Так вот с помощью неё ты можешь писать любым шрифтом и при этом поместишься в box.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #13 - 19.02.2023 :: 11:06:39
 
zvezdochiot писал(а) 19.02.2023 :: 10:41:30:
Ты прав, что неправ. Есть такая штука: setHorizScale(100.0 * box_width / font_width) (reportlab). Так вот с помощью неё ты можешь писать любым шрифтом и при этом поместишься в box.

Про это я знаю. Эта штука поможет вместить слово в заданный габарит, и то по горизонтали (по вертикали - как повезет). Но со словом проблем нет. Проблема как вывести целую строку за раз, так, чтобы каждое слово совпало с тем положением, которое у него должно быть.
В djvu все просто: я указал, что вот габарит, в нем одно слово, и все, никакой мороки, какой там шрифт, где там базовая линия - ничего не нужно знать. В pdf так не получится.

Кстати, в Литинецком, что сегодня выложили, выделение слов везде на одну букву меньше, чем есть в слове. Интересно, такое почему происходит? Не критично конечно, но хотелось бы узнать причину этого. И слова с переносом не ищутся.
Наверх
« Последняя редакция: 19.02.2023 :: 11:24:08 от bolega »  
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #14 - 19.02.2023 :: 11:36:42
 
bolega писал(а) 19.02.2023 :: 11:06:39:
в Литинецком, что сегодня выложили, выделение слов везде на одну букву меньше, чем есть в слове. Интересно, такое почему происходит?

Это фитча tesseract. Специально делает зазор в 1 букву, чтобы не было каши-малы. Насколько оправдано? Да вполне.

bolega писал(а) 19.02.2023 :: 11:06:39:
И слова с переносом не ищутся.

Я когда HOCR пытался править, такие дефисы наблюдал, что вам и не снились. Вы таких точек и тире на своей клаве в жизнь не сыщите.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #15 - 19.02.2023 :: 12:13:36
 
zvezdochiot писал(а) 19.02.2023 :: 11:36:42:
Это фитча tesseract. Специально делает зазор в 1 букву, чтобы не было каши-малы. Насколько оправдано? Да вполне.

Я в СК юзаю tesseract, такой проблемы нет...
Наверх
 
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #16 - 19.02.2023 :: 12:15:49
 
zvezdochiot писал(а) 19.02.2023 :: 11:36:42:
Я когда HOCR пытался править, такие дефисы наблюдал, что вам и не снились. Вы таких точек и тире на своей клаве в жизнь не сыщите.

А вы как думали. Найдите статью в wiki про знаки препинания, в т.ч. дефисы. Будете сильно удивлены, сколько их в юникоде имеется.
Наверх
 
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #17 - 19.02.2023 :: 12:20:21
 
bolega писал(а) 19.02.2023 :: 12:13:36:
Я в СК юзаю tesseract, такой проблемы нет...

А кто сказал "проблема"? Не-а, фитча. Специальная. Нарочная.
Вы в СК tesseract-ом PDF-ки генерите? Или только HOCR? Похоже мы говорим о двух совершенно разных вещах.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #18 - 19.02.2023 :: 12:31:32
 
zvezdochiot писал(а) 19.02.2023 :: 12:20:21:
А кто сказал "проблема"? Не-а, фитча. Специальная.

Я сказал  Смех
По мне, так съедать букву - это проблема.
СК генерит pdf сам, а OCR берет либо из tesseract, либо из FR, на выбор пользователя.
Наверх
 
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #19 - 19.02.2023 :: 12:40:36
 
bolega писал(а) 19.02.2023 :: 12:31:32:
съедать букву - это проблема.

Ты попутал. Букву никто не съедает. Просто к слову какбэ добавляется пробел. Сечёшь?

bolega писал(а) 19.02.2023 :: 12:31:32:
СК генерит pdf сам, а OCR берет либо из tesseract, либо из FR, на выбор пользователя.

Ну разумеется. И никаких таких фитч в HOCR нет. Фитчу tesseract "привносит" именно в PDF. Но у тебя же PDF генерит СК.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #20 - 19.02.2023 :: 12:46:09
 
Мы уже перешли на "ты"?
Не "секу". Ладно, пусть прибавляется пробел, но почему из-за этого в acrobat не выделяется последняя буква каждого слова?

Наверх
 
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #21 - 19.02.2023 :: 12:50:05
 
bolega писал(а) 19.02.2023 :: 12:46:09:
почему из-за этого в acrobat не выделяется последняя буква каждого слова?

Выделяется. Просто само слово короче. Пробела на самом то деле нет. Он виртуальный. Говорю же фитча. Можешь проверить на git-е. Там сразу несколько issue было. Но быстро все угомонились, когда поняли суть дела.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Вставка OCR в PDF
Ответ #22 - 19.02.2023 :: 12:57:40
 
У меня в СК тоже есть опция добавлять пробел к словам в pdf. В очень редких случаях (мне такое встречалось очень редко, поэтому сделал как опцию), при копировании текста из акробат он по каким-то своим причинам слеплял соседние слова. Пробел в конце слова помогал тогда. Но последствия лишнего пробела я особо не чувствовал, т.к. не использую моноширинные шрифты. Может дело не в tesseract, а в поведении pdf-редактора?
Наверх
 
 
IP записан
 
zvezdochiot
Постоялец
**
Вне Форума



Сообщений: 159
Москва
Пол: male
Re: Вставка OCR в PDF
Ответ #23 - 19.02.2023 :: 14:36:14
 
bolega писал(а) 19.02.2023 :: 12:57:40:
Может дело не в tesseract, а в поведении pdf-редактора?

Какого редактора? В процессе изготовления не участвовало ни одного. И в issue на git вы явно не заглядывали.
Наверх
 

Keep it simple, stupid
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать