OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
"Чудеса и приключения" (Прочитано 7998 раз)
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
"Чудеса и приключения"
01.05.2005 :: 18:16:07
 
Отсканировал журнал "Чудеса и приключения" №3 2005 г. Журнал мне понравился. Мне показалось, что он, по своему духу, похож на издававшийся в советские годы журнал "Техника молодежи".

Сканировал в цвете с разрешением 300 dpi в Фотошопе-5.5. Объем журнала 64 стр.+4 стр. на форзацы и обложку. Каждую страницу сохранял в формате *.TIFF для IBM PC без зжатия. Затем все страницы сжимал в DjVuSolo-3.1 в один файл и сохранял в режиме "Scanned". Настройки файла конфигурации в DjVuSolo не изменялись (остались как были по умолчанию). Вроде получилось все вполне пригодное для чтения и с небольшим размером файла. Файл с журналом прилагаю. Прошу посмотреть и дать оценку. Стоит ли продолжать делать эти журналы и дальше в этом формате и с таким качеством?

Файл журнала: http://publ.lib.ru/ARCHIVES/CH/''Chudesa_i_priklyucheniya''/''CHIPr'',2003,N05.[djv].zip
Наверх
« Последняя редакция: 27.10.2005 :: 22:51:48 от Вадим »  
WWW  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 653
Re: Книги для библиотеки
Ответ #1 - 01.05.2005 :: 23:50:34
 
Аналогично. Сканировал для себя журналы "Наука и жизнь", "Техника - молодежи", "Юный техник", "Химия и жизнь". Стоит ли переводить в DJV?  Сканинги 300 DPI. Полноцветное, 256 цветов или оттенки серого в зависимости от исходного изображения. Упаковывал в DJVU Solo 3.0. Но файлы очень большие. Порядка 6 мегов. В качестве образца высылаю первую часть "Науки и жизни" 11 1995.
Наверх
« Последняя редакция: 27.11.2006 :: 22:43:26 от Вадим »  
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Книги для библиотеки
Ответ #2 - 02.05.2005 :: 00:15:18
 
Мне очень даже понравилось. Обеими руками за!

ЗЫ По ТМ увидел недавно:
http://techmol.narod.ru/

По "Наука и жизнь":
http://nauka.relis.ru/WIN/ANONS/anons.htm#an3
(должен в ослике появиться)
Наверх
« Последняя редакция: 02.05.2005 :: 00:22:51 от Ustas »  
WWW 67730822  
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: "Чудеса и приключения"
Ответ #3 - 02.05.2005 :: 11:42:03
 
Вадим писал(а) 01.05.2005 :: 18:16:07:
Отсканировал журнал "Чудеса и приключения" №3 2005 г. Журнал мне понравился. Мне показалось, что он, по своему духу, похож на издававшийся в советские годы журнал "Техника молодежи".


  Еще бы... Это именно тот журнал, который основал Василий Захарченко, после того как его изгнали из "Техники молодежи" (за А.Кларка). При этом он еще и полредакции с собой увел.
Наверх
 

Slawa-614
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
Re: Книги для библиотеки
Ответ #4 - 02.05.2005 :: 23:23:15
 
Lykas писал(а) 01.05.2005 :: 23:50:34:
Аналогично. Сканировал для себя журналы "Наука и жизнь", "Техника - молодежи", "Юный техник", "Химия и жизнь". Стоит ли переводить в DJV?  Сканинги 300 DPI. Полноцветное, 256 цветов или оттенки серого в зависимости от исходного изображения. Упаковывал в DJVU Solo 3.0. Но файлы очень большие. Порядка 6 мегов. В качестве образца высылаю первую часть "Науки и жизни" 11 1995.

Вполне нормально. Текст читабельный. Можно было бы ожидать присутствия ошибок в тексте (текст мелкий в журнале), но я их не увидел. Ч/б фотографии слегка кореженые, но тут уж ничего не поделаешь. Их надо сохранять в DjvuSolo в режиме "Photo", но тогда объем файла резко поползет. Журнал "Наука и жизнь" толстый и 6-7 Мб на него вполне нормально.
Объем выкладываемых на форум файлов увеличен до 9,5 Мб. Так что можно файлы с журналами присоединять к сообщениям.
Очень бы хотел "Технику - молодежи". Дома у меня журналы не сохранились, а в районной библиотеке ушли в план по сдаче макулатуры. В Инет выкладывают отдельные статейки, а целиком - никто. Так что взять негде.
Наверх
 
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: "Чудеса и приключения"
Ответ #5 - 04.05.2005 :: 13:44:13
 
Цитата:
"Чудеса и приключения" №3 2005 г

Стр.31 - колонка текста справа -
появияся
яет
хотея
материаяизации
...

Цитата:
"Науки и жизни" 11 1995

Содержание про стр.41 -
иаучно-технической ииформацин
Стр.25 -
даух
Стр.39 -
квмнем
...
А чего конвертил все стр. кроме обложки в черно-белом? Ведь в цвете красивше...

Цитата:
Старый номер "Техники - молодежи"  - TM-10-89

Стр.8 -
научиой
проходнла
гуманизацин
сопутствовалн
пнсатель
полемнки
жнвого
...

Цитата:
Настройки файла конфигурации в DjVuSolo не изменялись (остались как были по умолчанию). Вроде получилось все вполне пригодное для чтения и с небольшим размером файла.

А за что боремся?
Кто меньше размером файл сделает в djvu? Или за "вполне пригодное для чтения"?
Ну тогда и после Файнридера вычитывать не надо - там тоже глаз и разум человека исправит ошибки...

Куда не зайду, везде пытаются доказать, что с установками по умолчанию при кодировании в djvu (300dpi) нет ошибок...
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
Re: "Чудеса и приключения"
Ответ #6 - 04.05.2005 :: 22:42:33
 
Ну вот и ложка дегтя!  Улыбка
Про ошибки ясно. Как от них избавиться-то? Изменения в файле конфигурации DjvuSolo у меня не дали нужных результатов. Т.е. вообще никак не изменилось количество ошибок, а объем файла вырос аж в 4 раза. Увеличение разрешения до 600 dpi снижает количество ошибок, но не устраняет их полностью и влечет, естественно, значительное увеличение размера файла. К чему ты призываешь? К снижению (не устранению) количества ошибок путем многократного увеличения размера файла? Я не хочу платить так дорого. Это уж слишком. Может есть какой другой редактор, который не делает подобных ошибок? Давай, попробую...
Наверх
 
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: "Чудеса и приключения"
Ответ #7 - 04.05.2005 :: 23:26:00
 
Цитата:
Изменения в файле конфигурации DjvuSolo у меня не дали нужных результатов

А вот это мне совсем не понятно, т.к. lossless=true уже указывает беспотерьное сжатие...
Попробуй сохранить одну ту исходную страницу в tiff с jpeg сжатием (а то не скачать большого файла), посмотри там различимы ли буквы будут, и выложи - посмотрим что к чему...
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
Re: "Чудеса и приключения"
Ответ #8 - 05.05.2005 :: 19:54:39
 
Zmiy писал(а) 04.05.2005 :: 23:26:00:
А вот это мне совсем не понятно, т.к. lossless=true уже указывает беспотерьное сжатие...
Попробуй сохранить одну ту исходную страницу в tiff с jpeg сжатием (а то не скачать большого файла), посмотри там различимы ли буквы будут, и выложи - посмотрим что к чему...

Да нельзя проверять на одной странице. Я это уже неоднократно наблюдал. Страница в составе книги может содержать несколько ошибок. Но если взять ее и сжать отдельно, то ошибки либо исчезают, либо их количество резко сокращается.
Наверх
 
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
Re: "Чудеса и приключения"
Ответ #9 - 05.05.2005 :: 22:42:10
 
Сейчас отсканировал еще один номер и упаковал с этим lossless=true . Файл вырос менее чем в 2 раза, но вроде стал чище. Прилагаю. Специально для Zmiy, пусть посмотрит как главный эксперт по формату DJVU. Улыбка

http://publ.lib.ru/ARCHIVES/CH/''Chudesa_i_priklyucheniya''/''CHIPr'',2001,N02.%5bdjv%5d.zip
Наверх
« Последняя редакция: 27.11.2006 :: 22:45:29 от Вадим »  
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: "Чудеса и приключения"
Ответ #10 - 06.05.2005 :: 23:51:45
 
Цитата:
Специально для Zmiy

От спасибо...  Смех

Ну глянул тонкие места - вроде нормально... И не так уж намного возрос размер.
Кстати, посмотри тему BookRestorer в "Технология OCR" - это полезная программа для коррекции изображений перед сжатием в djvu. По крайней мере исправление наклона страниц еще красивее сделает твои djvu...

Цитата:
Страница в составе книги может содержать несколько ошибок. Но если взять ее и сжать отдельно, то ошибки либо исчезают, либо их количество резко сокращается.

Да, бывает и так. Кол-во ошибок в bundled djvu изменяется также от размера словаря (кол-ва страниц на словарь, по умолч. вроде 20), и закодировав два djvu с прямым и обратным порядком страниц это можно увидеть.
Еще - теоретически, если вначале вставить страницы с большим dpi, а потом с меньшим (до размера словаря 20), то возможно в конечных страницах будет меньше ошибок, т.к. в словаре будут хорошие эталоны... Но это теоретически...   Круглые глаза
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 823
Россия
Пол: male
Re: "Чудеса и приключения"
Ответ #11 - 07.05.2005 :: 22:44:42
 
Цитата:
Кстати, посмотри тему BookRestorer в "Технология OCR" - это полезная программа для коррекции изображений перед сжатием в djvu. По крайней мере исправление наклона страниц еще красивее сделает твои djvu...

BookRestorer я не пробовал, а вот Кромсатором я пытался работать. Мне что-то тогда не понравилось, сейчас не помню. Будет время, попробую этот Ресторер. По идее такие проги должны и размер файла сокращать: грязь вычищать, границы обрезать и т.п.
Цитата:
Еще - теоретически, если вначале вставить страницы с большим dpi, а потом с меньшим (до размера словаря 20), то возможно в конечных страницах будет меньше ошибок, т.к. в словаре будут хорошие эталоны... Но это теоретически...

Теоретически - значит никто не пробовал. Может и не сработать это.

Я не очень силен в теории, но тут, насколько я понимаю, идея заложена такая. Опознается по нескольким точкам изображение символа и запоминается. Если далее встречается совпадающее (при анализе по этим же точкам) изображение, то оно вырезается, а на его место впоследствии будет подставлятся изображение запомненное в начале. Так со всеми символами. Чем больше символов совпало по изображению, тем меньше размер выходного файла DJVU.

Предположим, что анализ изображения происходит с разрешением 10 точек на мм2. Тогда символ 5x5 мм будет анализироваться в 250 точках, а символ 3x3 мм - в 90 точках. Вот отсюда и неточное распознавание на мелких шрифтах. Надо повысить плотность анализа изображения... Тогда ошибки могут и исчезнуть. При этом время обработки исходных файлов увеличится, но размер файла DJVU увеличиться не должен.
Наверх
 
WWW  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать