OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Опрос Опрос
Тема Опроса: Надо ли тщательно вычищать "мусор" в сканах ?



« Создано: Dmitry7 : 22.04.2012 :: 12:55:11 »

Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"... (Прочитано 8560 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
22.04.2012 :: 12:47:21
 


Какой, по-вашему мнению, оптимальный уровень вычистки "мусора" с сканах ?

надо ли вычищать каждую лишнюю точку, штрихи? Какого размера точки допустимо оставлять?

Кто как делает? Лично для меня мусор непереносим Улыбка И, вследствие этого, сильно страдает скорость обработки...
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
dns
Гуру
****
Вне Форума


Всем привет!

Сообщений: 942
Красноярск
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #1 - 22.04.2012 :: 13:14:39
 
Чищу все, что при быстром просмотре видит глаз, за исключением 2-х случаев: 1. Повторяющийся типографский дефект, часто выглядит как вертикальная черта или скобка слева или справа от литеры. 2. Весь оригинал густо посыпан крупной пылью, встречается в основном при переделке чужих нечищенных книг. В обоих случаях очистка дело неподъемное.

Скорость обработки, конечно, страдает, но куда спешить-то? Сколько сделается, столько сделается, не пожар. Подмигивание
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #2 - 22.04.2012 :: 13:18:55
 

dns писал(а) 22.04.2012 :: 13:14:39:
...2. Весь оригинал густо посыпан крупной пылью...

мне иногда  в этом случае помогает кнопка D (despecle) в сканкромсаторе. Но только надо правильно настроить размер спеклов (чтобы не удалить куски букв вместе с пылью)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
dns
Гуру
****
Вне Форума


Всем привет!

Сообщений: 942
Красноярск
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #3 - 22.04.2012 :: 13:24:21
 
Крупная черная пыль (или лучше сказать песок), деспекл в этом случае и точки с запятыми ликвидирует.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #4 - 22.04.2012 :: 13:29:18
 
dns писал(а) 22.04.2012 :: 13:24:21:
Крупная черная пыль (или лучше сказать песок), деспекл в этом случае и точки с запятыми ликвидирует.

согласен, особенно при переделках чужих книг с неправильно проведенной бинаризацией (если б были исходные сканы, можно было бы не допустить появления песка)....
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #5 - 22.04.2012 :: 19:53:27
 
Мелкий "песок" я чищу с помощью RasterID. В нем есть пакетный режим, но надо предварительно подобрать размер вычищаемых точек. Крупный мусор чистится руками. А вот средний размер соринок вычищать сложнее всего: руками муторно, а автоматизировать не получается  Печаль
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #6 - 23.04.2012 :: 02:03:20
 
Да ну, ну зачем вы такой вопрос задали? Это же лишний раз призывает человека задуматься, а всё ли он правильно делает!?. Например я, почему-то посчитал этот вопрос адресованным именно ко мне, в связи с недавними обсуждениями качества Роман-газеты.
Конечно, каждый в душе мечтает "Да, надо вычищать полностью", но тут палка о двух концах, либо одну дежавюшку сделать, либо двадцать одну. Учитывая, что у всех ситуации разные, то и спрос не должен быть велик.
Понятно, что не пожар, и понятно, что некуда спешить, но в моей ситуации, боюсь, что супруга в любой момент зарежет моё хобби, вот потому и отказался от тщательной долговременной обработки, в пользу уменьшения режущих глаз лежащих стопок.
-
Даже странно, ведь когда читаешь книги/журналы/газеты, то не замечаешь все эти пятна-пылинки-мусоринки, чтож здесь настолько придирчивое отношение складывается. Боюсь, что такими темпами вскоре придёться совсем отказаться от сохранения типографского шрифта в пользу чистенького компьютерного.
-
Я бы принял какие-то рекомендации к быстрой чистке мусора, но жаль время на изучение неизвестных мне RasterID и despecle.
-
От себя могу добавить, что у меня тоже не всё пролетает на автомате, задерживаю особое внимание на детских изданиях, которые в большинстве попадаются изкалякаными, вот на такую чистку мусора уходит гораздо больше времени.
-
Ну вот, и куда мне ткнуть? Получается, что в "Вычищать не надо, главное быстрее обработать". Зря я принял участие в опросе.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3829
Екатеринбург
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #7 - 23.04.2012 :: 05:50:46
 
Улыбка "От себя не убежишь".

Я, как читатель книжек, могу только сказать, что если мусор одиночный, одно пятнышко на 5-10 страниц, то он совершенно не мешает даже крупный - если только не мешает чтению букв(ы). Мы ведь не замечаем в бумажной книге неоднородности бумаги (вкрапления), даже легкие почеркушки у абзацев глаз часто может игнорировать. А вот если на чёрно-белом листе (бумажная-то книга куда чаще жёлтая или серая, чем белая) мусоринок - любого размера - более 2-3 на странице, то книга для меня нечитабельна. На белом фоне резко выделяются "чёрные неправильности", и мысленно отстроиться от этого не удаётся. Особенно при чтении с экрана - там разрешение ставлю побольше, буквы покрупнее, ну и мусор покрупнее. Дело, IMHO, тут в контрасте.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
pohorsky
Патриарх
*****
Вне Форума


Подключайтесь к проекту
"Вся МРБ"!!!

Сообщений: 5160
Москва
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #8 - 23.04.2012 :: 15:42:36
 
Вот посмотрите недавно выложенный
"Справочник радиолюбителя-конструктора". Издание 3. Массовая радиобиблиотека, выпуск 1043
.
Страницы оригинала (следовательно, сканы), бледные, мусора много и он мелкий, в пакетном режиме чистить нельзя - все нужные точки удалим. На странице их несколько сотен.
Начал было чистить в ручную, сделал 10 страниц и бросил - можно зависнуть на месяц - два.
Решил конвертировать "как есть", исправил перекос, центровку, удалил кляксы на тексте.
При желании можно вернутся к чистке, импорт из djvu обратно в СК (качество не пострадает - 600 дпи).
Моё мнение: в таких случаях лучше "замусореный" djvu, чем чистый, но без нужных точек, например, в аннотации.
Ваше мнение?
Наверх
« Последняя редакция: 23.04.2012 :: 20:19:54 от pohorsky »  
 
IP записан
 
dns
Гуру
****
Вне Форума


Всем привет!

Сообщений: 942
Красноярск
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #9 - 23.04.2012 :: 16:12:53
 
1. Информацию терять нельзя, это бесспорно.
2. Одно дело - среднестатистический скан, совсем другое - патологический случай, тут общие рекомендации не подходят. Если кол-во мусора по порядку величины равно кол-ву символов и авт. чистка невозможна, предлагаю считать грязь неотъемлемым элементом оформления книги Подмигивание Нельзя ведь, в самом деле, тратить на как попало изданную книгу столько времени и сил, как будто это инкунабула Гутенберга.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3829
Екатеринбург
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #10 - 23.04.2012 :: 16:30:03
 
dns писал(а) 23.04.2012 :: 16:12:53:
как попало изданную

можно ещё заняться поиском других экземпляров
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #11 - 23.04.2012 :: 19:16:31
 

папаВлад писал(а) 23.04.2012 :: 02:03:20:
Да ну, ну зачем вы такой вопрос задали? Это же лишний раз призывает человека задуматься, а всё ли он правильно делает!?. Например я, почему-то посчитал этот вопрос адресованным именно ко мне, в связи с недавними обсуждениями качества Роман-газеты.

да нет, к Вам никаких претензий по мусору нет Улыбка
Вопрос был задан "в общем".

А почему мусор в глаза бросается в дежавюшках, и не так бросается в оригиналах - так моё мнение - это из-за бинаризации. В реальных книгах мусорины, как правило соломенного, или светло-серого цвета, а при бинаризации все пятнышки чернеют. Но тут можно поэкспериментировать с порогом бинаризации, возможно....
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 671
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #12 - 24.04.2012 :: 17:22:33
 
ИМХО, все опеределяется достаточностью обработки. Ну а каждый определяет её сам. Кому-то надо "ни одной точки, шрифт типографский, цвета совпадают с оригиналом и т.д.", а для кого-то достаточно и гигабайтной пачки цветных PDF.
При обработке в ST можно регулировать агресивность уборки мусора, но необходимо следить за тем что-бы не сьелись лишние точки, например, в оглавлении. А в ручную вычищать, я так только в оглавлении и на титуле делаю.
Но бывают книги с очень светлой печатью. Обрабатываешь так - буквы сьелись, делаешь предварительно автоуровень - столько мусора выплывает...
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 264
Москва
Пол: male
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #13 - 29.04.2012 :: 16:13:35
 
Первый пункт опроса - в идеале хочется, но реально делаю по 2-му пункту (за него и проголосовал), а если много мусора, то для экономии времени "плавно сползаю" на 3-й пункт ...
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #14 - 01.03.2014 :: 15:19:22
 


Наверно, многие замечали, что наихудшее качество полиграфии и бумаги (а, значит, наиболее сложно оцифровываемые, многомусорные книги) пришлось на 1992-1994 гг. ?
Почему именно так?

и еще, в эти же годы и качество фильмов и мультфильмов, музыки тоже было ужасным (и содержание, и качество пленки).
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 671
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #15 - 02.03.2014 :: 01:14:18
 
Dmitry7 писал(а) 01.03.2014 :: 15:19:22:
Наверно, многие замечали, что наихудшее качество полиграфии и бумаги (а, значит, наиболее сложно оцифровываемые, многомусорные книги) пришлось на 1992-1994 гг. ?
Почему именно так?

и еще, в эти же годы и качество фильмов и мультфильмов, музыки тоже было ужасным (и содержание, и качество пленки).

Где-то на винте валяется расчет себестоимости книги, так самый простой способ её уменьшить - заменить бумагу на более дешевую.
Не, не только в те года. Например, в Серии "новое в жизни..." в любом году может вылезать мусор.
А почему в те года? Так после распада СССР пошли комерческие издательства. Дефицит книг и "хавали все". Поделки авторов типа Вилл Конт издавались тоннами (тираж 1 000 000). И продавались...
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4676
Санкт-Петербург
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #16 - 02.03.2014 :: 09:15:38
 


возможно, серии НВЖНТ, Нар.Унив., и даже НПС, делали из макулатурной бумаги? в них много включений
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
guru2002
Новичок
*
Вне Форума


Всем привет!

Сообщений: 6
Re: Чистка "мусора" в сканах - "ЗА" и "ПРОТИВ"...
Ответ #17 - 01.04.2015 :: 15:55:40
 
Я здесь нуб, но у меня опыт сканирования примерно 500 тыс. страниц / год.

Вопрос философский - также. То есть скорее философский. а потом уж технический.

Если вам 20-30, то можете гоняться и за точками; если вам 40-50, то смысла мало; если вам 50-60, то вообще нет никакого смысла. - ВСе будет вынесено на помойку вашими сожителями, детьми, внуками и внучками -- за ненадобностью в доме-квартире. Кто юудет разбираться с вашими форматами?

Вообще, "идеальность", "идеализм" - кому нужны? Это в жизни реально (где вы это видели)?

Большинство ваших-наших сканов нелегальны, нелегитимны, не могут в правовом отношении распространяться публично вообще. 

Скажем в Германии - таких форумов не может быть даже теоретически, в принципе. Типа, массовое сканирование книг... - Это специфика только России, и только в данный молмент времени.  Однажды власти поставят жирную точку, как и во всей континентальной Европе.

В РОссии даже маститые ученые не представляют, что такое копирайт на Западе. ТО есть, чего ждать в будущем на этом поприще. А здесь осталось не так уж много и ждать --- до 1 мая 2015. Когда закон о правах собственностти на книги должен войти в силу. Ну, ладно, не через год, но через 3-5 всё должно быть так, как и везде в остальном мире. Как всегда можно ждать, что перегнут палку -- это у нас любят.

Ну и что, надо гоняться за точками еще? - Думаю, что нет, имхо. 
 
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать