OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
сделать OCR-слой в djvu НЕ с помощью программы FR? (Прочитано 14227 раз)
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4356
Екатеринбург
Пол: male
сделать OCR-слой в djvu НЕ с помощью программы FR?
16.07.2009 :: 13:17:29
 
Сабж. Пример: не могу на работе установить ФР, а в пакете офиса2003 есть MS Document Imaging, который распознает тиффы и то ли делает OCR-слой внутри, то ли что, но в общем как-то работает. И доступен. Может где-то что-то уже обсуждали, но я не видел, хотя вроде на форуме здесь в старых сообщениях копался (давно).
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
monday2000
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 98
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы
Ответ #1 - 16.07.2009 :: 17:20:23
 
Можно в принципе сделать при помощи полного Document Express Editor - т.е. через встроенный в него Iris OCR. Но это будет тоже нелицензионная программа - так что хрен редьки не слаще.

Гипотетически возможно когда-нибудь в будующем приспособить CuneiForm OCR под разпознавание DjVu и внедрение в этот же DjVu распознанного текста. Теоретически это возможно сделать даже прямо сейчас - но под Linux. Правда, процесс пока сложен, многоступенчат и, подозреваю, ненадёжен - на любом этапе этой процедуры возможны сбои/падения.

Я надеюсь, что в будущем это будет возможно делать и под Windows-портом CuneiForm. Подробности тут: http://openocr.org/forum/viewtopic.php?f=2&t=46 .

Наиболее практически-приемлемое решение в данном случае - скачайте ABBYY FineReader 8 Prof Portable и запускайте его с флэшки на работе. Я сам именно таким пользуюсь - работает вполне нормально.
Наверх
 
WWW  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4356
Екатеринбург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы
Ответ #2 - 17.07.2009 :: 05:55:14
 
да, портабл-версия это выход. я и не знал что такое бывает у ФР.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
monday2000
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 98
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #3 - 30.12.2010 :: 13:01:57
 
Я сделал новую программу:

CuneiDjVu


Это GUI над Windows-версией CuneiForm-Linux v1.0 (CuneiForm-Linux-Win v1.0 входит в состав CuneiDjVu, отсюда и столь большой размер). Программа принимает на входе один DjVu-файл, распознаёт его посредством CuneiForm, и внедряет результат распознавания в копию исходного DjVu.

Качество распознавания - не очень. Для серьёзных целей программу использовать не следует.

Подробнее см. тут: http://www.djvu-scan.ru/forum/index.php?topic=115.msg1187#msg1187 .
Наверх
 
WWW  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #4 - 08.01.2011 :: 12:04:04
 
monday2000 писал(а) 30.12.2010 :: 13:01:57:
Я сделал новую программу:

CuneiDjVu


Это GUI над Windows-версией CuneiForm-Linux v1.0 (CuneiForm-Linux-Win v1.0 входит в состав CuneiDjVu, отсюда и столь большой размер). Программа принимает на входе один DjVu-файл, распознаёт его посредством CuneiForm, и внедряет результат распознавания в копию исходного DjVu.

Качество распознавания - не очень. Для серьёзных целей программу использовать не следует.

Подробнее см. тут: http://www.djvu-scan.ru/forum/index.php?topic=115.msg1187#msg1187 .


программа не понимает книги с разворотами 2-х страниц? что-то у меня не получается обработать такие
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
monday2000
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 98
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #5 - 14.01.2011 :: 16:37:55
 
Цитата:
программа не понимает книги с разворотами 2-х страниц?

Нет, не понимает.
Наверх
 
WWW  
IP записан
 
monday2000
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 98
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #6 - 11.05.2011 :: 11:58:57
 
Новая статья:

Использование CuneiDjVu


http://www.djvu-soft.narod.ru/scan/cuneidjvu.htm
Наверх
 
WWW  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #7 - 03.03.2012 :: 18:48:38
 
Document Express Editor - хорош для начинающих.   Но там нужно не забыть задать язык (сколько уже видел книг, где вместо русского задан английский).   Кроме того, в тех страницах, где в основном латынь, надо удалить ocr и, заменив язык, повторить распознавание.
Недостаток, который бросается в глаза сразу же - буква "г" распознается как "r" - это первый признак использования программы для ocr.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #8 - 03.03.2012 :: 21:49:38
 
Jeffry писал(а) 03.03.2012 :: 18:48:38:
Document Express Editor - хорош для начинающих.   Но там нужно не забыть задать язык (сколько уже видел книг, где вместо русского задан английский).   Кроме того, в тех страницах, где в основном латынь, надо удалить ocr и, заменив язык, повторить распознавание.
Недостаток, который бросается в глаза сразу же - буква "г" распознается как "r" - это первый признак использования программы для ocr.


а там нельзя задать 2 и более языка, к сожалению. Допустим, "русский+английский" не сделать в DEE
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #9 - 04.03.2012 :: 07:48:49
 
Цитата:
нельзя задать 2 и более языка, к сожалению. Допустим, "русский+английский" не сделать в DEE


Иногда эта возможность в FR плохо работает, напр., латинская буква "m" преобразуется в русскую "т" и наоборот. 
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #10 - 04.03.2012 :: 09:29:37
 

Недавно проводил эксперимент: распознал одну и ту же страницу мелкого текста:

1. CuneiDjVu (от monday2000)
2. FR8 + Djvu.OCR.v2.4b
3. DEE 6.0
(FR9 я так и не смог правильно подключить к djvu.ocr 2.4 (от gencho)

на 1 месте по минимуму ошибок - FR8
на 2-м - CuneiDjVu
на последнем - DEE.

Поэтому пока остаюсь на FR8.


Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #11 - 04.03.2012 :: 09:45:55
 
Недавно сравнил ocr для FR 8.0 и FR 10.0 (сравнил то, что сам делал с тем, что нашел в сети, где был описан способ ocr через промежуточный pdf-файл) и был удивлен тем, что ошибок в распознавании символов совсем чуть-чуть меньше для FR 10.0, но при этом заметно больше ошибок форматирования - вид таблиц был испорчен, тогда как для FR 8.0 - нет.
Наверх
 
 
IP записан
 
pohorsky
Патриарх
*****
Вне Форума


Подключайтесь к проекту
"Вся МРБ"!!!

Сообщений: 5323
Москва
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #12 - 04.03.2012 :: 09:53:04
 
Jeffry писал(а) 04.03.2012 :: 09:45:55:
способ ocr через промежуточный pdf-файл


А где это почитать?
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #13 - 04.03.2012 :: 10:02:36
 
Jeffry писал(а) 04.03.2012 :: 09:45:55:
Недавно сравнил ocr для FR 8.0 и FR 10.0 (сравнил то, что сам делал с тем, что нашел в сети, где был описан способ ocr через промежуточный pdf-файл) и был удивлен тем, что ошибок в распознавании символов совсем чуть-чуть меньше для FR 10.0, но при этом заметно больше ошибок форматирования - вид таблиц был испорчен, тогда как для FR 8.0 - нет.

когда же мы дождемся от ФР правильного распознавания формул (и переводу их в формат word)  и рукописного текста?.... Собственно, можно обойтись и без рукописного текста, но формулы - очень хотелось бы.
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #14 - 04.03.2012 :: 10:28:50
 
Цитата:
А где это почитать?

На руборде предлагали такой способ:
Цитата:
1. распознать Djvu-книгу в FR10 или FR11 и 
2. сохранить в PDF (обязательно сохранив РАЗМЕР ОРИГИНАЛА, а тип выбрать ТОЛЬКО ТЕКСТ И КАРТИНКИ), 
3. затем перегнать PDF в Djvu (не знаю как сразу извлечь OCR без пересохранения его в Djvu, программа для экспорта Pdftodjvu Light Edition), 
4. Извлечь из полученного файла OCR с помощью DjvuOCR
5. и внедрить в первоначальную Djvu-книгу

Способ кажется довольно извращенным, но можно попробовать.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #15 - 04.03.2012 :: 10:32:44
 
и форматирование при этом не пострадает?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: сделать OCR-слой в djvu НЕ с помощью программы FR?
Ответ #16 - 04.03.2012 :: 10:35:38
 
Цитата:
форматирование при этом не пострадает?

Видимо из-за этого преобразования djvu0->pdf->djvu1+ocr->ocr->djvu0+ocr таблицы и поплыли, когда я стал сравнивать варианты.

Читал, что FR 11.0 может выводить сразу djvu+ocr.  Это может решить все проблемы сразу.   Надо проверить.
Наверх
« Последняя редакция: 04.03.2012 :: 12:45:46 от Jeffry »  
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать