OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
О качестве исходных сканов! (Прочитано 10049 раз)
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
О качестве исходных сканов!
06.03.2007 :: 07:59:10
 
Всё же, посидев на этом форуме с осени прошлого года и поглядев на djvu выложенных в сети журналов, вынужден признать: djvu на экране проигрывает форматам без потерь и даже jpeg-у. Думаю, не у меня одного неприятное ощущение от артефактов. Профессионально сделанных журналов, где артефактов нет/они малозаметны/, маловато.  Согласен, что на распечатке это не всегда так заметно, но кто же имеет возможность печатать в цвете больше пары страниц... Не кажется ли заинтересованным лицам что имеет смысл где-то держать jpeg? Если это возможно по объемам (сразу вспомнился Мастер, который как-то пожаловался что ему и 11Тб мало дома. Мне вот "мало" 2Тб, но сюда входят многочисленные фильмы и полное дублирование, а под сканы jpeg и 200Гб за глаза.)
Наверное, это имеет смысл только для журналов, которые, как мне недавно написали в почту, "не читают а разглядывают". Для технических журналов есть еще одна проблема - мелкие детали чертежа должны быть отчётливо видны, иначе такой скан вообще не нужен.
Резюмируя: это (высококачественный скан) кому-то нужно? Можно ли это решить? Только ли в объемах дело?
Я понимаю что по модему 1Гб не утянуть.
Наверх
« Последняя редакция: 22.07.2015 :: 12:24:07 от Dmitry7 »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 691
Re: сканы в хорошем качестве
Ответ #1 - 06.03.2007 :: 20:44:45
 
Цитата:
Не кажется ли заинтересованным лицам что имеет смысл где-то держать jpeg?

Только не jpg. Потом артефакты не уберешь. Храню исходые и обработанные сканы в PNG на болванках. Например, "Майстер-конструктор" А4 300 dpi 4 цветных + 32 серых занимают 100 мегов.
Или имеется в виду хранить в сети? Тогда проблема. Как выход - делать полный OCR, и затем в PDF. Из аналогичных журналов - Радиоаматор в PDF занимает меньше места чем DJVU.
Цитата:
Для технических журналов есть еще одна проблема - мелкие детали чертежа должны быть отчётливо видны, иначе такой скан вообще не нужен.

Или чертеж отдельно выкладывать, или векторизировать и запихивать в PDF.
Столкнулся с такой проблемой при оцифровке журналов по вышивке крестом. Думал выкладывать журнал целиком в skan для общего ознакомления, а страницы по одной в foto.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: сканы в хорошем качестве
Ответ #2 - 06.03.2007 :: 22:35:24
 
Просто жать надо с высоким качеством. Я обычно 92 ед ставлю - и артефактов не вижу. Хотя они там есть. Но можно и выше - до 100.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: сканы в хорошем качестве
Ответ #3 - 07.03.2007 :: 06:35:36
 
да, мне кажется что жать надо с высоким качеством. я ставлю 90-91 Улыбка и тоже не вижу артефактов. а объем от bmp падает раз в 10-15. а то и в 30.
И конечно, я про сеть, а не про личный архив. С личным все ясно. Обратите внимание на мои вопросы в первом сообщении
Наверх
« Последняя редакция: 07.03.2007 :: 11:52:08 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: сканы в хорошем качестве
Ответ #4 - 23.03.2007 :: 19:18:48
 
значит, кроме двоих, и высказаться особо некому и не о чем? потребности, выходит, нет?
интересно - а вообще, библиотека местная на каком оборудовании крутится? дорого туда десяток тер под архив сканов запихнуть? если HDD дисков от ПК, так это 100000р максимум? скорее даже 50000. или все намного хуже? А, Вадим? я бы свои прислал на dvd.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: сканы в хорошем качестве
Ответ #5 - 29.03.2007 :: 06:16:08
 
А какие виды djvu вы имеете в виду? Наверное, обычные djvu-scanned, минимальные по размеру, но гробящие картинки за милую душу....

А ведь есть еще djvu-photo, который наверное сжимает не хуже JPEG и артефактов в нем совсем не много.
Кроме того в некоторых кодерах вроде можно выставлять значения для сжатия фона в scanned-подобных режимах с более высоким качеством (не 100 dpi, а больше). Может это даже можно сделать в Solo, если покопаться в pref-файлах?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: сканы в хорошем качестве
Ответ #6 - 29.03.2007 :: 07:28:11
 
речь о тех дежавю которые есть по факту в сети. скачаешь журнал - и противно смотреть на сочетание абсолютно четкой верхней половины цифры номера журнала на его обложке и уходящую в муть нижнюю половину этой цифры.
прилагаю пример в теме дежавю (правда не из инета, но сути не меняет). число 1967 мне не нравится, и это не худший пример из имеющегося.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 691
Re: сканы в хорошем качестве
Ответ #7 - 29.03.2007 :: 08:14:06
 
Balabol писал(а) 29.03.2007 :: 06:16:08:
А какие виды djvu вы имеете в виду? Наверное, обычные djvu-scanned, минимальные по размеру, но гробящие картинки за милую душу....
А ведь есть еще djvu-photo, который наверное сжимает не хуже JPEG и артефактов в нем совсем не много.
Кроме того в некоторых кодерах вроде можно выставлять значения для сжатия фона в scanned-подобных режимах с более высоким качеством (не 100 dpi, а больше). Может это даже можно сделать в Solo, если покопаться в pref-файлах?

Но при этом и возрастет размер раз в 6-10. И куда выкладывать такие жирные файлы? На файлообменники? Сюда не войдут.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: сканы в хорошем качестве
Ответ #8 - 29.03.2007 :: 08:57:26
 
Максиму Мошкову я написал насчет места под хранение, но уж три дня нет ответа. может, мейл не тот (с его хелпа 2003г взял).
предложение ведь такое: если уж вы имеете журнал и сканер но не умеете и не хотите готовить приличные дежавю, пришлите хоть сканы (ведь примеры качественных djvu-журналов есть, да умение не распространяется). и журналы и книги уходят в небытие. насчет МРБ узнавал в б-ках, ответ таков: "ну где вы были в начале 90х? мы уже все списали тогда, их раз в пятилетку спрашивали...". Вчера ходил насчет ютов, слышал разговор с девочкой, пришедшей за какими-то детскими журналами: "а этого у нас уже нет. кое-что мы храним 5 лет, кое-что 3 года, а вот этот журнал вообще только год, там ничего особенного для длительного хранения нет." И аминь. Ну не запредельные деньги стоит сейчас хранить сканы; и чего б не попробовать начать готовить почву.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: сканы в хорошем качестве
Ответ #9 - 31.03.2007 :: 18:43:44
 
пришёл ответ от Максима.
получить 1 терабайт на хостинге стоит 2000$ зараз, и 100$ в месяц. немало но и не очень много для группы. (платить 500р в месяц лично я готов.)
спасибо всем, кто откликнулся. тема закрыта.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5045
Санкт-Петербург
Пол: male
Re: сканы в хорошем качестве
Ответ #10 - 22.07.2015 :: 12:23:42
 


Возобновил тему, на что навел опыт обработки сканов разных сканировщиков, а также переделка криво сделанных pdf|djvu



amyatishkin писал(а) 06.03.2007 :: 22:35:24:
Просто жать надо с высоким качеством. Я обычно 92 ед ставлю - и артефактов не вижу. Хотя они там есть. Но можно и выше - до 100.



По поводу пропаданий перемычек в буквах "И" и "Н".
Большая часть их пропадает, если исходные сканы сохранены в jpg высокого сжатия. При увеличении таких сканов, как правило, видно, что перемычки имеют очень бледно-серый цвет (издержки сжатия), и при бинаризации считаются за белый и пропадают. И не всегда порогом бинаризации их можно спасти, т.к. рядом "всплывет" ненужный мусор, который придется отчищать вручную...
Поэтому если уж сканировщики и хотят сэкономить место, записывая сканы в jpg, надо хотя бы выставлять наименьшее сжатие. А лучше писать в TIFF (имхо)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mur
Новичок
*
Вне Форума


Всем привет!

Сообщений: 25
Пол: male
Re: О качестве исходных сканов!
Ответ #11 - 27.10.2015 :: 03:08:51
 
Dmitry7 писал(а) 22.07.2015 :: 12:23:42:
сэкономить место, записывая сканы в jpg

Конечно, если уж создавать базу, надо писать в lossless  с приемлемым сжатием (TIF, GIF или PNG т.е.).

Я тут существо левое, и соответственно немного не пойму, в чём проблема? Есть же облака. В частности, cloud.mail.ru. Надежность его уж всяко не ниже, чем коммерческих облак. Бесплатно, и они уверяют, что никогда не станет платным. Скорости, как на down, так и на up - с шириной канала (насколько мне известно, мейл по всей Руси локален и дает обычно 100 мегабит/c независимо от тарифа (у меня сейчас 200, хоть плачу я за 30), хоть и не заявлял об этом (Яндекс заявлял, но, насколько я понял, в Москве он не локален; почему-то. В Питере и большинстве крупных локален). С загрузкой нет проблем - разве что ограничение в 2 GB на файл - так для книг это несущественно. Через агент - автоматом хоть терабайт, со всей структурой каталогов, но не со скоростью канала.
Так вот -
В известное время мейл в течение месяца давал по терабайту на личико - наверняка ж многие здесь сделали себе более одного, и могут пожертвовать эккаунт в это дело - передать координатору логин и пароль.
Я могу дать терабайт сразу. А если кто-то даст 2, я дам 3 (до 5; просто не сразу - свободных у меня нет, и надо, как говорил Швондер, произвести "уплотнение").

Пары десятков терабайт (если откликнутся даже только самые активные) вполне хватит, чтоб хранить местные сканы, мне кажется...


Почему именно мейл и терабайтные эккаунты: кластер базы очень существенен - множество мелких облачков делает работу со сколько-нибудь большой базой практически невозможной. А терабайт - это уже серьёзно - может вместить сканы целой темы в TIFF.

Я эксплуатирую отечественные облака с момента их появления (даже несколько раньше официального объявления), и порядка 20000 файлов на них публично - все ограничения по времени хранения реально отсутствуют. У меня есть облачные эккаунты Яндекса 2009 года, и мейла - с момента его появления, в которые я ни разу с тех пор не (специально были созданы тестовые) - сейчас проверил - все что лежало, то лежит. Просто так они эккаунты не удаляют (хоть и заявлено). Ну а в крайнем случае можно раз в три месяца наведаться в каждый (просто зайти и выйти).

Если народ примет, я пришлю координаты эккаунта(ов; если кто-то даст больше) в личку координатору. Пароль на все облака можно установить один, и координатор(ы) может раздельно в каждом облаке создавать общие папки для групп и конкретных аплоудеров, с индивидуальным назначением прав доступа.

Во избежание приписывания мне нездоровых интенций: мне не нужно ни сканов, ни книг. Я просто "сочувствующий" этому делу в России и могу поделиться парой-тройкой терабайт места в облаках. Парой совсем чистых, нигде не засвеченных (ничего с них не шарилось; это важно, кто понимает).

Мое предложение действительно в течение недели (плюхнув что-то на форум, я вынужден все время заглядывать, что напрягает; а просто выбросить даже  один терабайт в пространство опционально (берите кто хотите) я не готов - у меня лишних нету)
Наверх
« Последняя редакция: 27.10.2015 :: 19:21:28 от mur »  
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5045
Санкт-Петербург
Пол: male
Re: О качестве исходных сканов!
Ответ #12 - 27.10.2015 :: 19:46:25
 
на облаке mega.nz дают вроде 50 Гб всего бесплатно
а сколько сейчас даёт мейл.ру ?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 691
Re: О качестве исходных сканов!
Ответ #13 - 27.10.2015 :: 20:07:39
 
Dmitry7 писал(а) 27.10.2015 :: 19:46:25:
на облаке mega.nz дают вроде 50 Гб всего бесплатно
а сколько сейчас даёт мейл.ру ?

Зашел на почту, пишет 100 Гб.
Наверх
 
 
IP записан
 
mur
Новичок
*
Вне Форума


Всем привет!

Сообщений: 25
Пол: male
Re: О качестве исходных сканов!
Ответ #14 - 27.10.2015 :: 20:24:35
 
Dmitry7 писал(а) 27.10.2015 :: 19:46:25:
а сколько сейчас даёт мейл.ру ?

25 гигабайт на эккаунт.
Это несерьёзно.
Мега была хороша, когда открылась. Сейчас обмен с ней труднопрогнозируем по скорости - она сильно меняется и в среднем
на порядок
меньше чем на мейле. Ну и 50 гиг - это тоже несерьёзно для рассматриваемой задачи (представьте себя на месте координатора, вынужденного витать в 200-400 облаках или хранить для них специальный талмудик, который может потеряться, который надо постоянно обновлять, и в случае неминуемых ошибок - см. начало предложения).

Я ж почему и написал "эксплуатирую отечественные облака с момента их появления" и сообщил количество зашаренных (публичных т.е.) там файлов, т.е. косвенно заявил себя экспертом, плотно работавшим с очень большими объёмами данных - для данной задачи имеет смысл только то, что я указал:
терабайтные
эккаунты на мейле
. Нужно, чтоб хотя бы 10 человек были готовы пожертвовать один из своих терабайтных эккаунтов. Если будет меньше, я и один свой давать не хочу, поскольку задачи это всё равно не решит.
Ну и ещё надо, чтоб кто-то взял на себя функцию координатора этих сканов. Я предполагал, что это может быть автор темы (как наиболее активный сканировщик), но он пока ничего не говорит. Если ему не нужно (тема-то очень старая - может, давно неактуально), то и смысла городить этот город, наверное, нет Улыбка

Lykas писал(а) 27.10.2015 :: 20:07:39:
пишет 100 Гб.

Это было. Давно и долго. Но сейчас только 25
Наверх
« Последняя редакция: 27.10.2015 :: 21:20:57 от mur »  
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5045
Санкт-Петербург
Пол: male
Re: О качестве исходных сканов!
Ответ #15 - 27.10.2015 :: 20:26:37
 
mur писал(а) 27.10.2015 :: 20:24:35:
Ну и ещё надо, чтоб кто-то взял на себя функцию координатора этих сканов. Я предполагал, что это может быть автор темы (как наиболее активный сканировщик), но он пока ничего не говорит. Если ему не нужно (тема-то очень старая - может, давно неактуально), то и смысла городить этот город, наверное, нет Улыбка

подождите, может ещё ответит Улыбка
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4214
Екатеринбург
Пол: male
Re: О качестве исходных сканов!
Ответ #16 - 27.10.2015 :: 21:32:55
 
Речь шла о распределённом хранении высококачественных сканов в свободном доступе. По типу государственного архива документов. Это оказалось никому не нужно, де факто. Все разговоры об облаках и координаторах - вторичны. Так же как мои сканы - ну, делаю я их, толку-то. Лежат, и никто их не спрашивает. За крайне редким исключением, 1 к 100, наверное. Предлагал в библиотеки - не берут. Не надо.
Поэтому я давно сделал вывод, что заниматься следует поиском причин - почему не нужно? И что из этого поиска следует. Ведь куча труда была потрачена авторами и художниками, редколлегией и так далее. Отличные журналы, и никто вроде не спорит, что отличные. Но на 500 миллионов русскоязычных на планете не нашлось и пяти человек, кому эти материалы нужны в первоначальном виде, без артефактов и с неискажённым цветом. Большой это вопрос, "почему так".
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
mur
Новичок
*
Вне Форума


Всем привет!

Сообщений: 25
Пол: male
Re: О качестве исходных сканов!
Ответ #17 - 27.10.2015 :: 21:46:27
 
AAW писал(а) 27.10.2015 :: 21:32:55:
Речь шла о распределённом хранении высококачественных сканов в свободном доступе.


Да... Это и тогда (когда тема была открыта) было нереально, а сейчас - в условиях резкого ужесточения копирайтных ограничений - тем более...
Даже если б и был большой интерес... Печаль

Тогда вопрос снимается, наверное. Тем более, что желающих отдать свой терабайт особо не наблюдается Улыбка
Наверх
« Последняя редакция: 28.10.2015 :: 11:15:31 от mur »  
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать