OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Хочу странного... (DJVU+OCR) (Прочитано 14147 раз)
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1074
Хочу странного... (DJVU+OCR)
13.05.2005 :: 23:46:17
 
Последние версии DJVU содержат текстовый слой. Но как такой документ создать?
Это идеальный вариант. В случае спорного места можно обратиться к первоисточнику.
Наверх
« Последняя редакция: 15.01.2012 :: 23:02:42 от Dmitry7 »  
 
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re:  слой
Ответ #1 - 17.05.2005 :: 05:29:29
 
Для русского языка - только с помощью DjvuOCR v2.0 от Gencho (ранее - FRFGrab)
http://www.dstu2204.narod.ru/doc/djvu/djvu.htm/
Сам текст распознается ФайнРидером, а затем извлекается из frf-файлов и "приклеивается" к djvu с помощью этой утилиты
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re:  слой
Ответ #2 - 15.12.2005 :: 19:17:20
 
Вообще-то, можно слой добавлять прямо в DEE (Document Express Enterprise) не отходя от станка (галочку на первой вкладке).  В 5й версии по крайней мере. Распознаватель знает более 70 языков (в полной версии). Взять его можно там же (см выше). Нет зависимости от FR, но русский он распознает ощутимо хуже, создает файлы несколько большего размера (на 5% примерно) и не позволяет использовать при распозновании несколько языков.
Наверх
« Последняя редакция: 16.12.2005 :: 05:39:03 от Minor »  
 
IP записан
 
Глюк Файнридера
Новичок
*
Вне Форума


Квакушки!

Сообщений: 18
Москва
Пол: female
Хочу странного...
Ответ #3 - 17.05.2006 :: 06:19:00
 
Меня тут "убедили" в важности сохранения исходных текстов... в смысле что исходных картинок страниц, которые потом распознаются и т.д.

В связи с чем вопрос: можно ли каким-то хитрым способом "сочесть" в одном файле картинку и распознанный и вычитанный текст?.. В идеале - с возможностью извлечения оттуда текста и конвертирования хотя бы в ТХТ. Да, и с возможностью поиска по тексту...

Мне объяснили что DJVU хорошо сжимает картинки (за что ему большое спасибо) - но все равно, тогда получается 2 файла - DJVU и текст... "Что делать?"..

Заранее спасибо.
Наверх
 

А Файнридер опять не распознал страницу...
 
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1074
Re: Хочу странного...
Ответ #4 - 17.05.2006 :: 21:25:45
 
Есть специальные программы, которые внедряют в DJVU файлы текстовый слой на основе распознанного FR.
DjvuOCR 2.0 final
Посмотри здесь: http://www.dstu2204.narod.ru/djvu
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1053
Россия
Пол: male
Re: Хочу странного...
Ответ #5 - 17.05.2006 :: 22:03:54
 
Lykas писал(а) 17.05.2006 :: 21:25:45:
Есть специальные программы, которые внедряют в DJVU файлы текстовый слой на основе распознанного FR.
DjvuOCR 2.0 final
Посмотри здесь: http://www.dstu2204.narod.ru/djvu

Да, но текст при этом невычитанный, а "грязный".
Наверх
 
WWW  
IP записан
 
Глюк Файнридера
Новичок
*
Вне Форума


Квакушки!

Сообщений: 18
Москва
Пол: female
Re: Хочу странного...
Ответ #6 - 17.05.2006 :: 23:29:08
 
Вадим писал(а) 17.05.2006 :: 22:03:54:
Да, но текст при этом невычитанный, а "грязный".


А выправить его вручную можно?... Или скопировать уже вычитанный текст?...
Наверх
 

А Файнридер опять не распознал страницу...
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Хочу странного...
Ответ #7 - 18.05.2006 :: 01:21:11
 
Практически вас, наверно, устоил бы вариант правленный текст + djvu с внедренным неправленным слоем.

Но вот вопрос: для чего это надо? Для хранения или для выкладки особо ценных книжек?
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Хочу странного...
Ответ #8 - 18.05.2006 :: 03:33:54
 
Глюк Файнридера писал(а) 17.05.2006 :: 23:29:08:
А выправить его вручную можно?... Или скопировать уже вычитанный текст?...


Скопировать можно, а выправить нет. По крайней мере пока. И искать по тексту можно и средствами браузера и системным поиском Windows (быстрее, чем в DOCах) при наличии плагина (взять можно там же, где и все остальное).

Вообще говоря - это проблема. Но проблема времени - не более. Во всех современных форматах есть TAGи, позволяющие добавлять в файл информацию, прямо к содержимому не относящуюся. А в DJVU нет. Вернее, есть, конечно (вот сам текстовый слой же размещается где-то; и гиперссылки), но нет средств для. Вот-вот должна такая возможность появиться. У меня такое чувство, что возможность внедрения объектов в системе все же есть (текстовый файл - это тоже объект) - просто о ней не знает никто. Интенсивно ищу - нужно - если успешно, сообщу.

Другое дело, что иметь все в единственном файле - идея-фикс. Я могу это понять - у меня в MP3 кроме всего, что там обычно добавляют, и либретто на разных языках, и ноты (в DJVU кстати), и MIDI, и то же произведение в других форматах (Encore, Finale), и фото и информация об исполнителях, и коверы оригинального диска и т.д. и тп. Вот и в DJVU-книгах мне бы хотелось, чтобы щелчком проигрывались нотные примеры - чувствую, можно это через механизм гиперссылок хотя бы, но пока не получается.
Так вот, если единственность файла - главное, можно наоборот, вставить DJVU в DOC как объект. Тогда щелчком по его значку будет вызываться файл и, при наличии скрипта VBA может даже открываться на соответствующей странице.
Наверх
 
 
IP записан
 
Глюк Файнридера
Новичок
*
Вне Форума


Квакушки!

Сообщений: 18
Москва
Пол: female
Re: Хочу странного...
Ответ #9 - 18.05.2006 :: 03:37:44
 
amyatishkin писал(а) 18.05.2006 :: 01:21:11:
Практически вас, наверно, устоил бы вариант правленный текст + djvu с внедренным неправленным слоем.

Но вот вопрос: для чего это надо? Для хранения или для выкладки особо ценных книжек?


Для хранения и последующей раздачи особо ценных статей... ну, потом, может, и книг. Товарищи, занимающиеся творчеством Стругацких, полоагают, что важен не только сам текст статьи, но и как оно ввыглядит "при жизни". А я полагаю, что картинки - это прекрасно, но как их цитировать, скажем?... Вот и надо нечто, примиряющее две наши точки зрения...
Наверх
 

А Файнридер опять не распознал страницу...
 
IP записан
 
Глюк Файнридера
Новичок
*
Вне Форума


Квакушки!

Сообщений: 18
Москва
Пол: female
Re: Хочу странного...
Ответ #10 - 18.05.2006 :: 03:48:09
 
Minor писал(а) 18.05.2006 :: 03:33:54:
Скопировать можно, а выправить нет. По крайней мере пока. И искать по тексту можно и средствами браузера и системным поиском Windows (быстрее, чем в DOCах) при наличии плагина (взять можно там же, где и все остальное).

Вообще говоря - это проблема. Но проблема времени - не более. Во всех современных форматах есть TAGи, позволяющие добавлять в файл информацию, прямо к содержимому не относящуюся. А в DJVU нет. Вернее, есть, конечно (вот сам текстовый слой же размещается где-то; и гиперссылки), но нет средств для. Вот-вот должна такая возможность появиться. У меня такое чувство, что возможность внедрения объектов в системе все же есть (текстовый файл - это тоже объект) - просто о ней не знает никто. Интенсивно ищу - нужно - если успешно, сообщу.

Другое дело, что иметь все в единственном файле - идея-фикс. Я могу это понять - у меня в MP3 кроме всего, что там обычно добавляют, и либретто на разных языках, и ноты (в DJVU кстати), и MIDI, и то же произведение в других форматах (Encore, Finale), и фото и информация об исполнителях, и коверы оригинального диска и т.д. и тп. Вот и в DJVU-книгах мне бы хотелось, чтобы щелчком проигрывались нотные примеры - чувствую, можно это через механизм гиперссылок хотя бы, но пока не получается.
Так вот, если единственность файла - главное, можно наоборот, вставить DJVU в DOC как объект. Тогда щелчком по его значку будет вызываться файл и, при наличии скрипта VBA может даже открываться на соответствующей странице.


Да не то чтобы единственность файла была так уж принципиальна... На данный момент использую систему DJVU-файл и DOC-файл с одинаковыми названиями. Но хотелось, чтобы все было вместе...

Кроме того, у меня Ворд-7.0, не уверена, что он на такие интеллектуальные подвиги способен. И надо, чтобы было легко объяснить, как потом пользоваться этим всем. Как DJVU  установить - я еще могу объяснить (берется файл и запускается установка). А вот что-то сложное...

Кроме того, глюк, видимо, тупее развернутого угла - потому что он скачал эту программу DJVUOCR, но ничего там не понял...
Наверх
 

А Файнридер опять не распознал страницу...
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Хочу странного...
Ответ #11 - 18.05.2006 :: 06:00:00
 
Глюк Файнридера писал(а) 18.05.2006 :: 03:48:09:
Кроме того, у меня Ворд-7.0, не уверена, что он на такие интеллектуальные подвиги способен.

Способен. Любой, даже второй (первого не помню). Вставлять можно что угодно прямо в тело файла, картинки, музыку (MP3 и MIDI WORD проигрывает в появляющемся прямо на странице небольшом проигрывателе с прокруткой и кнопками управления), фильмы и просто файлы, .EXE-шники например. Подробнее см. в HELPе про OLE и DDE.
Вставка\Объект... и далее разберетесь - по-русски же. Галочку только надо поставить "В виде значка", а то будет вставлено все содержимое...

Глюк Файнридера писал(а) 18.05.2006 :: 03:48:09:
И надо, чтобы было легко объяснить, как потом пользоваться этим всем.

А чё там объяснять-то? Щелкай по значку и все. Значок где-нибудь в начале файла расположить - в случае сомнений - пожалуйста: перейди в начало и щелкни, набери поиск (бинокль в панели инструментов) & That's all.


Глюк Файнридера писал(а) 18.05.2006 :: 03:48:09:
скачал эту программу DJVUOCR, но ничего там не понял...

По неоднократно указанной выше ссылке есть методика работы с ней (детальная), но это вообще-то все равно несколько канительно. Если не хотите заморачиваться - лучше пользоваться для сжатия в DJVU программой Document Express Enterprise 5.1 (есть там же с инструкцией) - там для внедрения текстового слоя достаточно поставить галочку возле Perform OCR и указать русский язык). У него свои глюки (иногда путает русское "г" и английское "r", например, и не может распознавать одновременно на нескольких языках), но это Вам вроде непринципиально. В крайнем случае можно и вручную найти нужное место.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1053
Россия
Пол: male
Re: Хочу странного...
Ответ #12 - 18.05.2006 :: 22:41:36
 
Глюк Файнридера писал(а) 17.05.2006 :: 23:29:08:
А выправить его вручную можно?... Или скопировать уже вычитанный текст?...

Нет, нельзя.
В программе Document Express Enterprise даже никакого подобия редактора нет. И прикрепленный текст - в кодировке Юникод. Это не очень удобно.
В DjvuOCR 2.0 (автор Gencho) текст берется из ФайнРидера 7.0. Но текст должен быть не тронутым редактированием. Как только делается попытка отредактировать какую-нибудь страничку в редакторе ФайнРидера, то сразу же "слетают" все координаты привязки текста к изображению. Такая страничка уже не годится для прикрепления к файлу DJVU.
Генчо сейчас заканчивает новую утилиту. Возможно там будет что-нибудь сделано в этом направлении.

Пользоваться DjvuOCR 2.0 не сложно. Программа не требует инсталяции. Загружаете ее в какой-нибудь каталог и запускаете файл DjvuOCR.exe
В появившемся окне галочка должна стоять на пункте "Batch mode OCR manager", который нам и нужен. Жмем Next.
В появившемся окне в "Options" ставим галочку в "Normal hyphenation". Жмем кнопку "Add", ищем файл DJVU, к которому будем присоединять текст, и добавляем его в окошко "DjVu File List". В окошке "Last page # in" прописываем количество страниц в обрабатываемом файле DJVU. Жмем кнопку "Browse", ищем пакет ФайнРидера с распознанным текстом обрабатываемого файла и добавляем его в окошко "FineReader Project Directiry". Жмем кнопку "Browse" ниже и выбираем папку, где будут сохраняться результаты обработки. Жмем кнопку "Test project" и убеждаемся, все ли страницы из пакета Файн Ридера пригодны для присоединения к файлу DJVU. Забракованные страницы следует перераспознать. Если тест не выдал забракованных страниц, то жмем кнопку "Process" и ждем результатов.
Внимание! Файл DJVU должен состоять из того же скана что и пакет в ФайнРидере!
Наверх
 
WWW  
IP записан
 
Глюк Файнридера
Новичок
*
Вне Форума


Квакушки!

Сообщений: 18
Москва
Пол: female
Re: Хочу странного...
Ответ #13 - 21.05.2006 :: 04:13:49
 
Вадим писал(а) 18.05.2006 :: 22:41:36:
Нет, нельзя.
В программе Document Express Enterprise даже никакого подобия редактора нет. И прикрепленный текст - в кодировке Юникод. Это не очень удобно.
В DjvuOCR 2.0 (автор Gencho) текст берется из ФайнРидера 7.0. Но текст должен быть не тронутым редактированием. Как только делается попытка отредактировать какую-нибудь страничку в редакторе ФайнРидера, то сразу же "слетают" все координаты привязки текста к изображению. Такая страничка уже не годится для прикрепления к файлу DJVU.
Генчо сейчас заканчивает новую утилиту. Возможно там будет что-нибудь сделано в этом направлении.


Да, это хорошо бы... Поскольку после Файнридера иногда получаются "образы дивной художественной силы" (с) кто-то там... Не говоря уже о мягких переносах и т.д. Видимо, на данный момент, действительно надо отдельно держать DJVUенный файл, отдельно - его текст...
Наверх
 

А Файнридер опять не распознал страницу...
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать