OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Djvu -> txt (Прочитано 15431 раз)
nadezhda
Постоялец
**
Вне Форума


:)

Сообщений: 152
Djvu -> txt
20.02.2007 :: 11:45:30
 
Хотелось бы увидеть возможные варианты способов по переводу книг формата Djvu в текстовый формат...
Для примера, предлагаю взять небольшой файл детской книжки Успенского, выложенный здесь на форуме по просьбе моих виртуальных знакомых: http://publ.lib.ru/cgi/forum/YaBB.pl?action=download;file=reka.rar
Наверх
 
WWW  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4544
Екатеринбург
Пол: male
Re: Djvu -> txt
Ответ #1 - 20.02.2007 :: 13:22:53
 
присоединяюсь.
вопрос по теме: у меня Фр7 почему-то отказался принимать многостраничные tiff (сгенерённые как советовал nbl из ирфана). ФР8 нет. Это косяк моего ФР7 или он официально и не поддерживает многостраничный tiff ?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Djvu -> txt
Ответ #2 - 21.02.2007 :: 01:55:08
 
AAW писал(а) 20.02.2007 :: 13:22:53:
присоединяюсь.
вопрос по теме: у меня Фр7 почему-то отказался принимать многостраничные tiff (сгенерённые как советовал nbl из ирфана). ФР8 нет. Это косяк моего ФР7 или он официально и не поддерживает многостраничный tiff ?

Если это так, то это обломтственно, потому как 8-й фр у меня в кряке Ихтика, т. е. только с русским и английсмким (если я эту инсталяшку еще и не потер из-за этого ее недостатка).
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Djvu -> txt
Ответ #3 - 21.02.2007 :: 07:31:41
 
Я обычно сохраняю из Solo кучкой файлов и смотрю их названия - надо чтоб нумерация была нормальная, а это не всегда бывает. Потом  они конвертятся через XnView в JPG и дальше как простую графику.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Djvu -> txt
Ответ #4 - 21.02.2007 :: 07:34:24
 
А вообще у меня ФР6 нормально ест свои могостраничные тифы. Попробуйте с форматами тифф поиграться.
Наверх
 
 
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Djvu -> txt
Ответ #5 - 21.02.2007 :: 10:20:27
 
Вот наваял маленькую инструкцию: http://djvu.nbl.by.ru/djvu2tiff/ Может кому поможет. Здесь же можно взять тестовый многостраничный TIFF.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4544
Екатеринбург
Пол: male
Re: Djvu -> txt
Ответ #6 - 22.02.2007 :: 06:37:04
 
спасибо, всё получается. видимо, мой tiff какой-то не такой. делал его ирфаном 3.98. Разберусь к выходным, это интересная проблема. tiff делал из djvu мафина.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Djvu -> txt
Ответ #7 - 23.02.2007 :: 11:09:06
 
Очень маленькая поправка к очень маленькой инструкции. Чтобы конвертировать все страницы, а не заниматься мазохизмом по листику, выбирается пункт View-Multipage images-Extract all pages (Вид-Многостраничные изображения-Извлечь все страницы), выбирается папка и выходной формат.
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 422
Россия, Москва
Пол: male
Re: Djvu -> txt
Ответ #8 - 23.02.2007 :: 12:52:01
 
GMAP, а где там мазохизм? В каждом пункте инструкции надо сделать лишь несколько кликов мышкой. У меня лишь одно подозрение: ваш Irfan не 3.99, а какой-то более старый.
Наверх
 
 
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Djvu -> txt
Ответ #9 - 23.02.2007 :: 17:18:22
 
GMAP писал(а) 23.02.2007 :: 11:09:06:
Очень маленькая поправка к очень маленькой инструкции. Чтобы конвертировать все страницы, а не заниматься мазохизмом по листику, выбирается пункт View-Multipage images-Extract all pages (Вид-Многостраничные изображения-Извлечь все страницы), выбирается папка и выходной формат.

Ужос! Не надо нам таких поправок!
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4544
Екатеринбург
Пол: male
Re: Djvu -> txt
Ответ #10 - 25.02.2007 :: 18:44:11
 
по поводу 3х предыдущих сообщений: весело мы тут живём Улыбка
по поводу tiff, который у меня не открывался в ФР7: оказывается, ФР7 не взял компрессию LZW. Если в файле оставлять "None" - все хорошо берется ФР-ом. Это относится к файлам с цветными картинками. ЧБ-файлы (как, например, reka из примера nbl) сжимать лучше стандартом Fax Group G4.

И к слову о конвертилках: в процессе экспериментов случайно попробовал переделать компрессию из LZW в None с помощью "MS Office Document Imaging" из состава MSO2003. Так вот несмотря на внешне успешный процесс (снял галочку "применять LZW" и сохранил в другом файле) КОМПРЕССИЯ ОСТАЛАСЬ - и по объему было видно, и ирфан потом это показал. Такие дела, будьте осторожны.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4544
Екатеринбург
Пол: male
Re: Djvu -> txt
Ответ #11 - 26.02.2007 :: 19:12:09
 
чтож, получается, nbl отразил оптимальный путь перевода djvu>txt ? тема закрыта?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
nadezhda
Постоялец
**
Вне Форума


:)

Сообщений: 152
Re: Djvu -> txt
Ответ #12 - 02.03.2007 :: 09:42:16
 
[quote author=AAW link=1171961154/0#11 date=1172506352]чтож, получается, nbl отразил оптимальный путь перевода djvu>txt ? тема закрыта?[/quote]
Зачем же закрывать тему? :) Со временем, может быть, будет что добавить...

А сейчас, кстати, можно уточнить официальный адрес обсуждаемой программы "IrfanView": http://www.irfanview.net, на котором можно взять саму программу (помимо файловых каталогов, выдающихся поисковиками при её поиске), и - руссификатор (находящийся вот на этой страничке: http://www.irfanview.net/languages.htm), и - необходимые плагины (http://www.irfanview.net/plugins.htm)... :)
Наверх
 
WWW  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: Djvu -> txt
Ответ #13 - 09.03.2007 :: 11:18:16
 
Есть DJVU, которые уже содержат текстовой слой (правда, как правило,  он не вычитан). Извлечь его можно с помощью WinDjView или DjvuOCR.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать