OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 
Послать Тему Печать
Сканирование газет (Прочитано 82508 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Сканирование газет
13.03.2011 :: 10:10:02
 
Как правильно сканировать газеты формата А1/А2 на сканере А4 ?

четверинками, а потом как-то склеивать? не всегда получается совместить правильно. Может быть есть какие-то программы для автоматизации склейки кусков, попроще фотошопа?
Наверх
« Последняя редакция: 15.01.2012 :: 23:09:48 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1052
Россия
Пол: male
Re: Сканирование газет
Ответ #1 - 13.03.2011 :: 11:56:52
 
Мне в свое время советовали программу RasterStitch
Я ее пробовал. Клеит куски вроде правильно. Могу выслать, если не найдете в Интернете.
Наверх
 
WWW  
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Сканирование газет
Ответ #2 - 13.03.2011 :: 16:18:34
 
Газеты не склеивал, но для больших форматов использую PanaVue Image Assembler (режим Mosaic Stitching). Программа довольно простая.
Продвинутый вариант - PTGui мощная программа для склейки панорам, но я с ней до конца не разобрался. Настроек в ней очень много, и она все-таки предназначена для склейки панорам и коррекцию геометрических искажений.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #3 - 13.03.2011 :: 17:22:07
 
спасибо! нашел пока  RasterStitch 2.4. попробую разобраться
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #4 - 18.04.2012 :: 01:07:14
 
Каждый раз с неохотой вставляю газету в сканер. Одни проблемы с ними. Мусор сыпется от старости, замятости плохо разглаживаются, тёмная желтизна от хранения в сарае, мелкий плохопропечатанный шрифт, низкосортная бумага с кучей вкраплений тёмных частиц...
RasterStitch, на самом деле, плохо слеивает, потому как использует лишь две точки. На автомате ни разу не попал точно в цель, всегда ловишь вручную, с пятой/десятой попытки кое-как соглашаешься, понимая, что ещё лучше не получится. Помню, как клеил какую-то схему или плакат из восьми кусков А4, потом вручную дорисовывал несостыковки и потерял целый день, зато решился на покупку сканера А3.
Программы-склейщики для фотопанорам пробовал ранее, результат никакой, они вообще по тексту не ловят пересечений, им нужны картинки, а если вручную точки проставить, то всё равно вместо прямоугольника выдают трапецию и на стыках размывают шрифт до полной нечитаемости. Сейчас поискал PanaVue Image Assembler, то что имеется в сети имеет триальную версию, либо с кряками, которые антивирус не пропускает, короче не удалось потестить.
Ладно, с горем пополам, склеиваю из А3 в А2, так такой размер А2 Skan Tailor не принимает, у него какие-то ограничения, которые разработчик давно обещал убрать в очередных обновлениях, но с каждым разом ничего не меняется. Приходиться в графических редакторах крутить, обрезать, но и тут всё не слава богу. Файлы по 400 Мб либо совсем не открываются, либо не сохраняются, раз кликнешь мышкой и можно успеть поужинать, вобщем тормоза жуткие, всё это настолько некомфортно, что желание сканировать газеты совсем исчезает.
Хотелось бы, конечно, чтобы и газеты легко оцифровывались, но пока проще сделать журнал на 60 страниц, чем возиться с 4-мя страницами старой газеты, которая ещё и ненужной окажется.
Хотя, имеющие сканеры А1/А2, газеты в отличном состоянии и умеющие пользоваться сканкромсатором, скорее всего покажут язык Язык на это сообщение.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #5 - 18.04.2012 :: 08:42:43
 
папаВлад писал(а) 18.04.2012 :: 01:07:14:
поискал PanaVue Image Assembler, то что имеется в сети имеет триальную версию, либо с кряками, которые антивирус не пропускает, короче не удалось потестить.

На руборде полный комплект с кейгеном. Если доверяете антивирусу больше, чем себе, тогда лучше купить программу и не пользоваться варезом.
Наверх
 
 
IP записан
 
Lykas
Патриарх
*****
На Форуме


Всем привет!

Сообщений: 1073
Re: Сканирование газет
Ответ #6 - 18.04.2012 :: 19:33:35
 
Scan-n-Stitch Deluxe хорошо собирает страницы из кусков, но на А3 надо три скана, при двух прехлеста не хватает.
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #7 - 18.04.2012 :: 22:28:50
 
Поиск на руборде ведёт в "закрытые" темы, нужно региться, а это менее интересно, да и не так важна эта прога, она же из серии "для панорамных фото".
Про вирусы - отдельная тема, просто меня уже достало, приходить после работы и полночи вычищать то, что дети за день наловили, а последние их путешествия ещё и прилично залезли в семейный кошелёк, вот потому и сам стал осторожничать.

Scan-n-Stitch Deluxe по описанию очень интересна, к тому же увидел по комментам, что ей действительно пользуются именно для оцифровки газет, которые уже есть в сети. Обязательно постараюсь её посмотреть, даже если она тоже с вирусами  Круглые глаза (только это будет попозже).
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #8 - 19.04.2012 :: 00:36:27
 
Не удержал своё любопытство, скачал сейчас Scan-n-Stitch Deluxe, протестировал на имеющихся сканах.

Я так понимаю, эта прога заточена на то, чтоб именно через неё сканировали, заранее выбирая нужный готовый проект из предлагаемых. Но есть и загрузка готовых сканов, вот туда я и полез.

Закинул пару файлов, поменять их местами нет возможности, ну и ладно, зато есть покрутить по 90 градусов и можно попасть в нужное направление. Жму Stitch (Склеить), других кнопок нет, где-то минуту ожидаю (tif, оттенки серого, 300 DPI. В основном текст + мелкие картинки + мелкие схемы, короче Приложение к журналу Работница). В итоге склейка прошла неправильно, страницы перевёрнуты не так, как были изначально. Ну и ладно, у меня на пересечении было менее 20%, как просят разработчики программы, видимо потому произошла ошибка. Ищу возможность что-то поправить вручную, а ничего нет. Совсем никаких вариантов ручного склеивания!
Получается, что всё зависит от повезёт/не повезёт.
Пробую склеить ещё и другие страницы, все попытки неудачны, даже при очень толстом пересечении границ.
Ох, и капризный этот склейщик, мог бы хоть раз попасть в правильную позицию, чтоб глянуть на положительный результат.

Вобщем, отсутствие ручной расстановки точек/линий границы склеивания - это большой минус. При этом сравнении, RasterStitch остаётся более привлекательным.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #9 - 21.04.2012 :: 08:20:36
 
папаВлад писал(а) 18.04.2012 :: 22:28:50:
да и не так важна эта прога, она же из серии "для панорамных фото"

Она из серии, в которой больше никого нет, поскольку RasterStitch не работает с несколькими строками/колонками, а остальные не работают с малобитными изображениями. Регистрация на руборде не настолько сложный процесс, благо, что есть врЕменные мэйлы, часа существования которых с лихвой достаточно. Но дело хозяйское, если хочется стоя на лыжах в гамаке, возражать не стану.
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #10 - 21.04.2012 :: 13:32:57
 
GMAP, вы пользуетесь "PanaVue Image Assembler"? Получилось собрать из А4 в А2? Сможете хоть что-то написать о результатах и залить проверенный вами архив на файлообменник?
Вот, например, mor её рекомендовал, но честно написал, что газеты не клеил.

Lykas предложил "Scan-n-Stitch Deluxe", но тоже неясно написал, пользуется ли сам ей. Я проверил эту программу лишь несколько раз, при неправильно подготовленных сканах. Возможно при трёх сканах на страницу она даст положительный результат, но я пока не имею возможности посканировать.

Программой "RasterStitch" пользуются многие, видимо за неимением лучшего или по незнанию, что есть что-то более удобное. Я, от своего имени, её рекомендую, но не всё устраивает. Точнее, если есть место склейки с чистым полем или лишь парой линий на границе склеивания, то "RasterStitch" вполне удобен, а если срез проходит прямо по шрифту и больше никуда место склейки не перенести, то неудача будет на 75%, тут только личный опыт по двиганию точек может как-то спасти, либо после неровной склейки эту строку шрифта в графическом редакторе исправлять.

Кроме склеивания больших форматов, есть и другие неудобства, например не всегда могу сжать сразу все страницы в djvu через DEEditor, приходиться сжимать по одной странице, а потом собирать их в один файл. Но это не большая проблема, а лишь мелкая неприятность.

Не стесняйтесь, поделитесь опытом. Или никому не досуг газетами заниматься?
Как сканируете, 300 или 600? С 300 dpi проблем при обработке меньше, но читаемость видимо хуже, но читается.

Лежат насканенные газеты в 600 dpi, несколько номеров склеил, а дальше обработать не могу, т.к. громадный размер никакой мой графический редактор не берёт. Перевёл в оттенки серого, чтоб в мегабайтах были меньше файлы, не помогло. Думаю, может из tif в какой другой формат перевести или же понижать размеры изображения до того момента, пока их увидят программы-обработчики.

Вот такие "танцы с бубнами", когда нет однозначной полезной информации.
Наверх
 
 
IP записан
 
Lykas
Патриарх
*****
На Форуме


Всем привет!

Сообщений: 1073
Re: Сканирование газет
Ответ #11 - 21.04.2012 :: 19:37:24
 
У меня нормально клеит. Пример:
http://www.onlinedisk.ru/image/864768/1.JPG
Но надо на А3 три скана А4. Сканировал 300 DPI. А сканер не помню. Собирается секунд за пять.
Тренировался на мелочи, в планах было "Книжное обозрение" за начало 90-х.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #12 - 21.04.2012 :: 19:58:32
 
папаВлад писал(а) 21.04.2012 :: 13:32:57:
Получилось собрать из А4 в А2? Сможете хоть что-то написать о результатах и залить проверенный вами архив на файлообменник?

Разумеется, собирал, газеты очень редко,  в основном схемы и чертежи, но какая разница? Если сканы без перекоса и хотя бы с минимальным нахлестом, то собирается без проблем, иначе приходится сначала править перекос. Архив со всем необходимым есть на руборде, только не надо опять про регистрацию, которой Ваша нежная душа не переносит  Улыбка
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #13 - 23.04.2012 :: 00:57:21
 
К сожалению, эти выходные пролетели с полной загрузкой домашних мероприятий, потому недолго посидел за компом, потестировал "PanaVue Image Assembler". Успел сделать лишь 2 раза склейки одних страниц в двух программах, для сравнительного теста маловато, но вот такие наблюдения. Результат у PanaVue намного лучше, чем у "RasterStitch", но погрешности всё-равно есть, хотя они гораздо меньше. Заметно, что технология склеивания совсем другая, PanaVue отлично справился с границей по картинке, а вот на шрифте в первом случае произошло наложенное раздвоение ( http://s019.radikal.ru/i616/1204/7c/b5864f97c904.jpg ), во втором - смещение со сдвигом ( http://s019.radikal.ru/i605/1204/c7/ee1fb3621c19.jpg ). RasterStitch на автомате напортачил гораздо серьёзнее, и после ручной правки я всё-таки не добился идеального результата, т.к. он использует ровную линию склейки, а у PanaVue граница странно виляет, и просмотреть её едва удаётся по размытостям на стыковке ( http://s019.radikal.ru/i643/1204/50/30f110c1a657.jpg ). Это были плюсы в сторону PanaVue, но есть и неприятность ввиде 30-тиминутной обработки двух сканов в один, к примеру RasterStitch эту же операцию делает за 3-4 минуты. И ещё, если вы собираетесь загрузить файлы в PanaVue, то обязательно заранее поверните их правильно, иначе потом в нём нельзя покрутить страницу отдельно от другой, а результат будет похож на этот ( http://s019.radikal.ru/i607/1204/ce/3c17a8b63ee7.jpg ).
Хотелось бы побольше склеек сделать на "PanaVue Image Assembler" и попробовать вручную расставить точки, но  пока не разобрался как. А ещё бы посмотреть внимательнее на "Scan-n-Stitch Deluxe", но сегодня не смог посканировать на 3 в 1.

Забыл сказать, что на архив с руборда антивирус тоже ругается.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #14 - 24.04.2012 :: 08:18:09
 
Как альтернатива, я фотографировал газеты. Canon 7D (18 МП) + объектив Canon EF-s macro 60/2.8. Формат газеты А2, А3 читаемо.
Пример А2 (оригинал очень плох): http://img-fotki.yandex.ru/get/5301/krychenkov.4c/0_55cee_130bcced_orig

А3 под рукой нет, но вот вырезка 1:1: http://img-fotki.yandex.ru/get/4702/krychenkov.50/0_5faa3_4777ee31_orig

Чтобы получить максимально возможное качество и разрешение съёмки приходится использовать макрообъектив и вспышки.
За рабочий день снималось до 2000 страниц.
К вопросу о затворе, сейчас есть беззеркалки типа Sony NEX 5N и NEX 7. Единственное у них нет управления от компа, что очень желательно при таких работах.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #15 - 24.04.2012 :: 10:42:45
 
папаВлад писал(а) 23.04.2012 :: 00:57:21:
есть и неприятность ввиде 30-тиминутной обработки двух сканов в один.

Выложите исходные сканы, где было 30 минут обработки, куда-нибудь на обменник.
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #16 - 24.04.2012 :: 20:35:49
 
slava_kry, когда нет сканера, то никто не будет против перефотографирования. У вас отличные снимки. Видно, что вы настоящий фотограф с хорошим оборудованием. Я, когда купил NIKON D7000, тоже пытался фоткать большие газеты, но с освещением была проблема, никак равномерно не получалось, да и размытости по краям. Честно признаюсь, я фоточайник, и кроме AUTO ничего не знаю. И, конечно же, если есть выбор, что брать именно для оцифровки газет, то сканер будет на шаг впереди фотика, да и дешевле.
-
GMAP, ну да, я был не прав, забыл написать, что я клеил цветные сканы в 600 DPI (7200х10200, по 210 Мб). Вам, видимо, не приходилось с такими громадинами связываться, потому и усомнились в правдивости моего теста. Думаю, что сканы 300 DPI с меньшими размерами обработаются быстрее, но и RasterStitch не заставить ждать 3-4 минуты. Я же предупредил, что это мои первые тесты, т.е. я пока изобретаю велосипед, на котором вы уже катаетесь, но не желаете научить других. Тут можно выдумать ещё кучу вариантов перед склеиванием, может стоит заранее привести картинки в надлежащий вид с помощью СТ или СК или ещё каких вспомогательных программ, и последним этапом отправить на склейку, тогда и скорость повысится и результат будет совсем без промахов.
Сканы я залью, чтоб не быть голословным, и даже распишу, почему ушло 30 минут. Я специально засекал, проверяйте.
Так как вращать в PanaVue нельзя, значит 1 скан надо повернуть в сторонней программе, на что уйдут какие-то минуты. Потом уже в PanaVue: загрузка файлов, какая-то предварительная обработка, потом основное склеивание и в конце сохранение. Оба раза ровно 30 минут.
И ещё добавлю, когда работает PanaVue, то больше ничего сделать в фоне невозможно, загружает процессор на полную катушку. Обычно, пока работает какая-то программа, то можно делать что-то в другой, но тут никак.
Вы поймите правильно, я не собираюсь охаить рекомендованную вами программу, результат её работы мне понравился, и лишь делюсь своими впечатлениями. И при этом, совсем не собираюсь писать какие-то общие рекомендации по оцифровке газет, у каждого свои любимые методы обработки.
Ссылки будут, скорее всего, только завтра, за этот вечер не успею слить, скорость на выход слабая.
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #17 - 26.04.2012 :: 05:32:16
 
Сканы газеты Труд (600 DPI, цвет, tif) 1 Гб
http://narod.ru/disk/47281669001.993b58c00500e78bbecb8c5114541289/Trud.1990-300....
Было бы интересно посмотреть на результат, с коротким описанием, кто как делает.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #18 - 26.04.2012 :: 10:42:30
 
"На скору руку": http://file.karelia.ru/g2g7q6/
Собрано Шопом 5.5 на автомате, только приходится предварительно ровнять половинки между собой. Чистая стыковка занимает примерно минуту-две. Моменты разных искажений при сканировании разных половинок видны на стыках и их приходится отдельно прорабатывать, хорошо, что достаточно легко это сделать. Но по факту это выходит очень много работы, Один год это ~1000 страниц при 4 страницах на газету, т.е 2000 половинок...
Даже имея полные страницы и то выматывает, а тут склейка просто вынесет мозг  Улыбка Плачущий
Ну это моё мнение  Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #19 - 26.04.2012 :: 12:13:04
 
В связи с этим обсуждением вспомнилась одна "проблема" в местном депозитарном хранилище документов. Они перевели областные газеты на микрофиши. А теперь читатели жалуются, что через аппарат чтения микрофиш эти газеты очень неудобно читать. Не вполне качественные снимки, чуть-чуть расплывшиеся, на этот дефект накладывается не очень хорошая фокусировка и разболтанность механизма, фиксирующего и продвигающего микрофишу, в результате - я сам проверял - полная ерунда, а не чтение. Библиотекари меня просили помочь подсказать, как перевести микрофиши в электронный вид, а я ничего толком ответить не смог Печаль Понимаю, что нужно большое увеличение (раз в 50-60, может до 100), и на этом мысль останавливается. Кто-то из фотографической братии намекал, что можно просто зафоткать микрофишу, кусочками конечно, изготовив насадку к цифровому фотоаппарату и используя удлинительные кольца. Но КАК это сделать - чёрт знает... может здесь кто-то что-то подскажет?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #20 - 26.04.2012 :: 12:18:56
 
папаВлад писал(а) 26.04.2012 :: 05:32:16:
Было бы интересно посмотреть на результат, с коротким описанием, кто как делает.

Суровые размеры! Зачем же в цвете сканировать? При конверте в серое размер уменьшается в пять раз.
Только первая страница, все делалось на автомате, только грязь слева в Ирфане руками удалил.
http://rghost.ru/37776134
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #21 - 26.04.2012 :: 13:00:44
 
@
AAW
Отправил в ЛС
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #22 - 27.04.2012 :: 00:34:05
 
Я предполагал, что совсем готовый файл может кто сделает, и даже не важно в djvu или pdf, главное хотел подсмотреть, в какую сторону думать.

GMAP писал(а) 26.04.2012 :: 12:18:56:
Зачем же в цвете сканировать?

Мои объяснения вряд ли будут кому понятны, т.к. у меня свой способ чистки, связанный с заменой ненужного цвета на белый. В принципе, в будущем, могу и в сером сканировать. Тут проблема в другом, я не могу подобрать метод обработки и сжатия именно больших размеров. В 300 dpi всё клеится, обрабатывается и сжимается, но вот захотел зачем-то научиться делать лучше.
Склейка ваша понравилась, но результат в чёрно-белом мне не нравиться. Спорить не буду, это дело вкуса или личных предпочтений/привычек. Думаю, если нужно, то у вас есть возможность и в серых тонах сохранить.


slava_kry писал(а) 26.04.2012 :: 10:42:30:
тут склейка просто вынесет мозг

У вас тоже вариант хороший, лишь вторая страница, видно наспех сделана, и при особом желании там можно поправить. А если учесть, что газет оцифровывается много, то для экономии времени и такой вариант вполне сойдёт.
Конкретно Фотошопом не пользуюсь, но подозреваю, что в нём подгонка стыков ещё сложнее получается, чем в специальных склейщиках. А с другой стороны, это как для водителя, знакомая дорога всегда короче.

-
Сегодня угробил ещё несколько часов, чтоб наконец понять, что из сканов А3 в 600 DPI я ничего хорошего сделать не могу. Даже сейчас не вышло просто сжать результаты склейки от slava_kry. Зато могу забросить сканы в долгий ящик, и подождать, пока появится понятная инструкция по оцифровке крупноформатных газет.
Ссылка на сканы газеты Труд останется рабочей, может для каких тестов сгодится.
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #23 - 27.04.2012 :: 08:44:33
 
папаВлад писал(а) 27.04.2012 :: 00:34:05:
результат в чёрно-белом мне не нравится

То есть, Вы предпочитаете 100 метров на страницу с грязью вместо 1,5 черно-белых? Тогда не понимаю что Вы хотите и зачем вообще затеяли этот разговор. Все делается элементарно и достаточно быстро, ни о каких десятках минут речь не идет. Впрочем, поступайте как хотите, но зачем тогда спрашивать советы у других?
Наверх
 
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Сканирование газет
Ответ #24 - 27.04.2012 :: 10:17:04
 
Допускаю, что газеты можно и в сером оставить, но зачем же 600dpi!? Чтобы изучать следы микроорганизмов, поедающих краску букв?  Смех
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #25 - 27.04.2012 :: 22:04:32
 
GMAP, я не переживаю за размеры файла, важнее качество, которое у всех оценивается по-разному. Обсуждать это нужно в отдельной теме.
В этом топике хотел узнать, как делать газеты А2 при скане 600 DPI, или точнее, хотел собрать мнения и сделать для себя какие-то полезные выводы.

bolega, я не знаю ваш метод оцифровки, но могу поделиться своим. Сканы 300, после обработки и перед сжатием в djvu, увеличиваю в размерах на 200% и до 600 DPI, т.е. я всё-равно сжимаю шестисотые, так чего бы не попробовать взять изначально такой размер. Но столкнулся с проблемой, что привычные программы обработки не справляются с такими крупными файлами.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #26 - 27.04.2012 :: 22:11:27
 
папаВлад писал(а) 27.04.2012 :: 22:04:32:
Сканы 300, после обработки и перед сжатием в djvu, увеличиваю в размерах на 200% и до 600 DPI, т.е. я всё-равно сжимаю шестисотые, так чего бы не попробовать взять изначально такой размер. Но столкнулся с проблемой, что привычные программы обработки не справляются с такими крупными файлами.

сканкромсатор справляется, но привычная ли эта программа для Вас?

вообще А3 я сшиваю обычно в ней. обрабатываю первую половину, затем делаю ресайз в 2 раза и подгружаю 2
-ю часть, совмещая с 1-й
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #27 - 27.04.2012 :: 22:27:18
 
Ну вот, подтвердили мои подозрения, что СК скушает любые размеры без проблем. Я в нём не бум-бум, и языка не знаю.
Может кому скучно и возьмёт эти несколько насканенных Трудов?
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #28 - 28.04.2012 :: 17:55:08
 
Цитата:
Допускаю, что газеты можно и в сером оставить, но зачем же 600dpi!?

А затем, что не все любят и переваривают 300дпишные сканы, пусть даже и ресайзенные скантейлором до 600дпи ... Мне результат работы скантейлора не особо нравится, даже когда исходником выступают 600дпи сканы, он все равно автоматом портит шрифты на сканах, выравнивая порог черного ...
А Scan&Stitch в целом неплохая программулька, очень простая, но действительно на каждый разворот А3 жизненно нужно три скана - оба края и место сшивки крупно, чтобы нормально все сшилось, это фотошопу часто достаточно 2х сканов с хорошим перекрытием ...
Пробовал я и RasterStitch, но он у меня почему-то вообще не взял цветные 600дпи сканы (как тифы, сжатые и несжатые, так и жпеги) - написал, что нехватка памяти, это при 4Гбайт оперативки, и никаких запущенных тяжелых программ, а PanaVue сначала тоже понравился, но потом увидел искажения краев разворота после склейки (причем при 3-х сканах разворота, которые и Scan&Stitch и фотошоп идеально склеили) и отказался от нее тоже ...
Наверх
« Последняя редакция: 28.04.2012 :: 18:11:51 от Владислав_72 »  
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Сканирование газет
Ответ #29 - 28.04.2012 :: 21:22:28
 
Хоть убейте не пойму, что дает 300 dpi gray -> 600 dpi gray кроме жуткого увеличения размера.
Я понимаю, когда делают 300 dpi gray -> 600 dpi b/w.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #30 - 28.04.2012 :: 21:54:58
 
Цитата:
Хоть убейте не пойму, что дает 300 dpi gray -> 600 dpi gray кроме жуткого увеличения размера.

Ваш вопрос изначально имел смысл - "зачем сканить в 600дпи" (по крайней мере я понял его так), соответственно я его, надеюсь, немного прояснил ... а сейчас вы трактуете его уже немного по-другому, и уже действительно 300дпи грей в 600дпи грей перегонять почти не имеет смысла, реального качества не прибавишь, хотя обрабатывать будет не проще, но возможно меньше ошибок будет при распознавании ...
Наверх
 
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #31 - 29.04.2012 :: 06:35:33
 
папаВлад писал(а) 27.04.2012 :: 22:04:32:
важнее качество, которое у всех оценивается по-разному

Я бы очень хотел посмотреть на 1 (один) лист газеты с качеством, которое Вас устраивает. Чисто из любопытства, для пополнения знаний о смысле сохранения в сером, не говоря уже о цветном, поскольку до сих пор считал что в газетах, в основном, одна краска - черная. Может выложите пример, даже без склейки?
Наверх
 
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Сканирование газет
Ответ #32 - 29.04.2012 :: 16:03:19
 
Владислав_72 писал(а) 28.04.2012 :: 21:54:58:
Ваш вопрос изначально имел смысл - "зачем сканить в 600дпи"

Нет, не надо фантазировать. Мой вопрос был навеян этим:
папаВлад писал(а) 27.04.2012 :: 22:04:32:
Сканы 300, после обработки и перед сжатием в djvu, увеличиваю в размерах на 200% и до 600 DPI, т.е. я всё-равно сжимаю шестисотые, так чего бы не попробовать взять изначально такой размер.


Кстати, против сканирования в 600dpi gray ничего не имею, но есть сомнение в необходимости этого для газет. Я никогда не встречал книг в djvu 600dpi gray, а тут газеты.. Впрочем, возможно, я не прав.
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #33 - 29.04.2012 :: 20:00:41
 
Блин, да чтож за недопонимание-то? Почему 600, почему в цвете, почему не нравится так??? А вот просто, не нравится!!! А вот так случилось, что уже посканил на 600, да в цвете! И вот, что мне с этим добром/дерьмом теперь делать, не понятно.

Я хочу научиться нормально оцифровывать газеты А2/А3, хочу с каждым номером делать лучше, чем прежние. Я делаю шаги туда/сюда: пробую сканы на 600, вместо 300, т.к. мелкий плохопропечатанный шрифт при сжатии теряется, научился правильно избавляться от постороннего цвета (жёлто-рыжий), тыкаюсь в разные непонятные программы, читаю советы/ответы, что-то осваиваю, что-то отбрасываю. При этом, не стесняясь, делюсь с вами своим маленьким опытом, высказываю своё мнение (которое на данный момент), но не навязываю его никому и не прошу его считать за эталон.

Газеты бывают и цветные, даже ежедневная советская периодика на праздники выходила с цветными шрифтами/рамками/цветочками, а современные газеты практически все цветные. Пример от Lukasa по его ссылке http://www.onlinedisk.ru/view/864768 Вот потому нужны цветные сканы и сохранять их нужно в цвете. А те, которые изначально ч/б, то на любом этапе обработки не сложно перевести в серый или ч/б, кому как привычнее, да и учитывая, есть ли на странице фотки.

Да, мне не нравится сжатие битонал (эти агрессивно-контрастные буквы), но это не значит, что я совсем против него, пусть каждый для себя сам решит как сжимать. У вас многолетний опыт, вы и из мусора конфетку в битонале сделаете и вам не страшны тонкие буквы. Я тоже несколько журналов сделал в ч/б (не сером), которые мне понравились (речь о Человек и закон), но это был чёткий толстый шрифт и я был уверен, что никакая Т не превратится в Г и запятая не станет точкой. Но опять же, в душе, я бы всё-таки предпочёл сохранить в сером, для собственного спокойствия.

Мои газеты тут http://papavlad.ucoz.ru/load/gazety/7 и хоть они страшные, мне не стыдно их опубликовывать, они сделаны настолько качественно, насколько позволяет мне свободное время и опыт.

-
Вернусь в Scan Tailor.
Опытным путём установил, что максимально принимает 11800 пикселей по большей стороне, 11900 уже не вставляет в проект, DPI тут роли не играет, пробовал и 300 и 600. Но, после обработки в СТ, файл на выводе не получается сохранить, обычно программа просто вылетает или сохраняет лишь белый или чёрный лист.
Буду пробовать ещё уменьшать размеры исходных картинок.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #34 - 29.04.2012 :: 21:08:48
 
Цитата:
Я никогда не встречал книг в djvu 600dpi gray, а тут газеты..
А вот я почему-то встречал, может и не так часто, но встречал. Для газет правда не встречал ...

Цитата:
Блин, да чтож за недопонимание-то? Почему 600, почему в цвете, почему не нравится так???
Я вас прекрасно понимаю и полностью на вашей стороне, поскольку сам сканирую исключительно на 600 точек и меня не удовлетворяют многие книги, оцифрованные на 300дпи, даже если они прошли через скантейлор с апсамплингом 300->600дпи ...
Вот сейчас при оцифровке журнала попалась цветная вкладка-карта размером 360х480 (почти А2), и я проверил склейку ее 600дпи кусков в фотошопе 5.5 и Scan&Stitch - оба справились, результаты примерно одинаковые как по времени, так и по качеству, но последний требует примерно одинаковых размеров кусков и дополнительно ряд лишних сканов по центру, т.е. для А2 нужно не 4 скана А4 с перекрытиями, а 6 сканов. И сам еще подсказку при запуске склейки дает, как клеить - линейкой или таблицей.

Цитата:
Буду пробовать ещё уменьшать размеры исходных картинок.
Не надо, не портите качество скантейлором - "потомки вам не простят" ...
Наверх
« Последняя редакция: 29.04.2012 :: 21:23:26 от Владислав_72 »  
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #35 - 29.04.2012 :: 22:50:49
 
Владислав_72 писал(а) 28.04.2012 :: 17:55:08:
Мне результат работы скантейлора не особо нравится, ... он все равно автоматом портит шрифты на сканах, выравнивая порог черного ...

Это вы про то, когда на Вывод выбрать режим Черно-белый или Смешанный?
Ну, я так понимаю, что это любой способ будет уничтожать светлые края шрифта, независимо от того, как обрабатывать страницу, хоть через СК или СТ, хоть через графический редактор, хоть с помощью программ по сжатию. Иначе придёться оставлять фон с паразитным слоем.
Или при Выводе в Цветном/сером тоже портится? По идее, в цветном/сером ничего не должно изменятся.
В любом случае, меня СТ устраивает.

-
Про Scan Tailor заметил недавно вот что. На выходе в цветном режиме белые поля не совсем белые, там присутствует какой-то оттенок. Заметить его сложно, точнее я его вижу только на ноутбуке под определённым углом наклона. То есть, если я белой кисточкой проведу по полю, то виден более светлый след. Не знаю, насколько это важно, т.к. после всё-равно обрабатываю сканы и осветляю фон.
Да, и замечу, что не проверял, если на вывод выбрать черно-белый или смешанный режим, может при таких вариантах всё белое-белое.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #36 - 30.04.2012 :: 08:55:30
 
Цитата:
Ну, я так понимаю, что это любой способ будет уничтожать светлые края шрифта, независимо от того, как обрабатывать страницу, хоть через СК или СТ, хоть через графический редактор, хоть с помощью программ по сжатию

Нет, не любой, в случае частичных непропечаток символов определенные редакторы не будут заливать черным весь символ при бинаризации, и светлые места будут просто более разреженными черными точками, что сохранит эффект типографской печати. СТ же поступает не так, он похоже (может и ошибаюсь, пость гуру по нему проконсультируют) подбирает символы из встроенных его шрифтов и в итоге удаляет указанный эффект, шрифты становятся жирными и похожими на компьютерные, причем утоньшение шрифтов действует плохо, перво-наперво начинают исчезать перемычки в символах (проблема инь-янь).
Но в других редакторах бинаризацию приходится делать постранично, что сильно утомляет, можно было бы автоматом над группой сканов в фотошопе, но мне не нравятся там варианты бинаризации, которые он предлагает, возможно есть другие варианты, но я не сильный знаток фотошопа.
Наверх
« Последняя редакция: 30.04.2012 :: 17:14:03 от Владислав_72 »  
 
IP записан
 
GMAP
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 52
Somewhere there...
Пол: male
Re: Сканирование газет
Ответ #37 - 30.04.2012 :: 11:23:36
 
папаВлад писал(а) 29.04.2012 :: 20:00:41:
Я хочу научиться нормально оцифровывать газеты А2/А3, хочу с каждым номером делать лучше, чем прежние.

Мне кажется, что Вы не столько хотите научиться, сколько продемонстрировать свои предпочтения, даже если они противоречат здравому смыслу. Если газета черно-белая изначально, то сканировать ее в цвете нерационально, кроме безумного увеличения размера, это ничего не даст. Но Вы же скажете - а мне так нравится! Это никто не оспаривает, но зачем тогда говорить про некое обучение?
папаВлад писал(а) 29.04.2012 :: 20:00:41:
Пример от Lukasa по его ссылке http://www.onlinedisk.ru/view/864768

То же самое в три раза меньше, лучше и это не предел для jpg: http://www.onlinedisk.ru/edit_image/869598/
Наверх
 
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #38 - 01.05.2012 :: 01:09:14
 
Мой здравый смысл подсказывает, что пора закончить это обучение.
Всем спасибо.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #39 - 01.05.2012 :: 15:40:31
 
Вам небольшая подсказка по удалению жёлтого фона с малоцветных газет и разделению по цветам. Весь жёлтый будет в канале Yellow, а чёрный в Black.
http://youtu.be/0b3aabNJD9w?hd=1 - первые 35 секунд.

И ИМХО сначала вам нужно определиться с задачей, иначе непонятно чего вы хотите добиться. Прекрасного качества и маленького размера одновременно добиться не получится из-за качества самого оригинала и его ДД (динамического диапазона). Это получится только в одном случае - если вы будете иметь доступ к электронным оригиналам.  Улыбка
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
папаВлад
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 100
Подмосковье
Пол: male
Re: Сканирование газет
Ответ #40 - 02.05.2012 :: 23:32:16
 
slava_kry, похоже это фотошоп, к сожалению не пользуюсь им. Осваивать с нуля будет сложно.
Смысл я уловил, это как бы разложить по слоям и удалить слой с жёлтым. Но это поможет удалить только ровный фоновый слой, а вот где складки на старой газете, там цвет меняется в коричневый, и удаляя коричневу теряется много нужного шрифта. Наверное, фотошоп может и со складками справиться, но это будет серьёзная потеря времени. Для меня проще их оставить в цвете, так чёрные буквы на коричневом фоне можно как-то прочитать, а в сером всё сливается и не читается. Вообще, надо бы на досуге, ещё что-то почитать про удаление желтизны, но без фотошопа, а то мои методы не всегда спасают.

Прекрасного качества мне не нужно, лишь бы сохранить то, что видно в скане. Размеры вообще никак не волнуют, просто сжимаю потом разными способами, получается 2-3 файла разного размера, пусть выбирают кому-что. Коллекционеры берут те, что крупнее, библиотеки - поменьше, копипастеры - средние, вобщем всё востребовано.

-
Ранее была проблема с обработкой картинок высотой от 13000 пикселей, ну так убавил в 2 раза, и далее всё по старой схеме.
Владислав_72, особо не переживай, ну не смог никак с большими, а так легко. Всё читается  Подмигивание
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #41 - 11.05.2012 :: 10:45:18
 
На последок еще чуть нюанса по склейке разворотов -
все-таки Scan&Stitch иногда неточно склеивает (расхождение в доли градуса, что иногда чревато для схем), фотошоп (в случае 3х сканов разворота) клеит качественнее, но оказалось, что первая программа не трогает формат файла, а вот фотошоп - всегда конвертирует куски и саму итоговую склейку в 24битный труколор (я давно заметил, что с монохромом ФШ работать не хочет и не умеет).
И по времени в случае монохромных разворотов выходит она быстрее, чем ФШ.
И насчет Скантейлора - почему мне он не нравится - он все равно при выводе в черно-белый бинаризирует даже изначально монохромные сканы, причем по своему, уничтожая изначальные части букв и утолщая несуществующие части, искажая таким образом текст. Я бы понял, если бы он пропускал такие страницы, однако нет.
Вот пример:
исходный монохромный скан:
...
заново бинаризованный скантейлором:
...
Буквы "рубятся" по краям, и становятся похожи на компьютерные (настройки СТ дефолтные), что на мой взгляд почти уничтожает "душевность" старых книжных шрифтов. Многим это вполне на уровне, а вот мне - нет.
Наверх
« Последняя редакция: 11.05.2012 :: 11:04:27 от Владислав_72 »  
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #42 - 08.10.2013 :: 10:15:13
 
C чего начать?

Имеется большой архив газет конца 80 - начала 90 гг. политической направленности. В Сети, если судить по моим поискам, большинства из них нет.
Хочу: отсканировать издания, распознать и выложить в Интернет для открытого доступа.
Возможности: опыта сканирования нет, сканера нет, фотоаппарата нет. Есть время и немного денег.
Склоняюсь к тому, чтобы купить недорогой фотик где-то за 2-4 тыс руб. и им работать.
Нужны советы:
1. Реально ли использовать фотоаппарат для целей сканирования? Какая модель предпочтительнее?
2. Желательной количество мегаписелей?
3. Какую использовать программу OCR? Хотелось бы бесплатную по WinXP.
Пока вопросы все. Но обязательно будут еще Улыбка
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #43 - 08.10.2013 :: 17:29:19
 
@
Alex2013
Бюджет ни в какие ворота...
Можно купить б/у сканер. Фотик за такие деньги брать нет смысла.
Потом, вероятней всего, вас задолбает сканить кусками (~2-3 скана для страницы А3 (стандарт для газет) на сканере А4), а потом сшивать и вы быстро "сдуетесь", а делать одним снимком нужен свет, крепление а-ля штатив и фотик хотя бы на 15-18 МП, также очень желательно управление фотиком с компа.
Такие дела...
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #44 - 08.10.2013 :: 20:03:28
 
slava_kry писал(а) 08.10.2013 :: 17:29:19:
@
Alex2013
Бюджет ни в какие ворота...
Можно купить б/у сканер. Фотик за такие деньги брать нет смысла.
Потом, вероятней всего, вас задолбает сканить кусками (~2-3 скана для страницы А3 (стандарт для газет) на сканере А4), а потом сшивать и вы быстро "сдуетесь", а делать одним снимком нужен свет, крепление а-ля штатив и фотик хотя бы на 15-18 МП, также очень желательно управление фотиком с компа.
Такие дела...

а сколько стоит б/у сканер А3 ? может ему такой купить лучше?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #45 - 08.10.2013 :: 20:06:17
 
Alex2013 писал(а) 08.10.2013 :: 10:15:13:
C чего начать?
Хочу: отсканировать издания, распознать и выложить в Интернет для открытого доступа.

На распознавание время бы не тратили. кому нужно, сделает себе сам (или Вы после сканирования и переделки в djvu|pdf основной массы). А читать газеты можно и нераспознанные.
Старые газеты ценны факсимильностью!
мое мнение.
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #46 - 08.10.2013 :: 20:27:49
 
А3 сканеры сами по себе редкость в частных руках, а уж на продажу найти ещё сложнее Улыбка ИМХО.
Есть дешёвый Mustek, но там вроде бы какие-то траблы и CIS линейка странная, со слов пользователей, то полосит, то нет. А больше я не слышал о дешёвых А3 сканерах.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #47 - 08.10.2013 :: 21:02:01
 
да, количество денег не соответствует задаче. Газеты - это не НПС. И шрифт мельче, и формат огромный.

Почти оффтоп:
в подобных случаях несоответствия вспоминаю вот эту картинку:
http://demotivators.to/p/525625/pamyatka-zakazchiku.htm
и вздыхаю.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #48 - 09.10.2013 :: 11:13:58
 
Спасибо всем откликнувшимся.
Позволю себе высказать следующие соображения:
1. О сканере. За предложенную сумму можно купить не только новый средненький сканнер, но и МФУ. Конечно А4. А3 в продаже просто не видел. Его размеры и цена могут наверное испугать даже смелого человека. Улыбка
2. Присмотрел себе 16 мегапиксельный фотик Canon A1400. Стоит 2500 руб. Из дешевой категории Canon по отзывам потребителей самые лучшие. У меня была мыльница Кодак - очень сильно пережимал JPG.
3. Почему хочу не просто отсканировать, но и распознать? Смысл в том, чтобы поисковые машины могли проиндексировать содержание газет со всеми вытекающими из этого последствиями для ищущих информацию.
4. Сейчас задумался об авторском праве. Некоторых газет уже нет в природе, другие пока существуют. Они меня за одно место не возьмут?
5. Предполагается следующий алгоритм действий:
фотографирование листа газеты, перевод его в PDF, склейка всех листов  в один файл. На каком этапе распознавать текст и главное - чем? Где-то валяется диск с древним FineReader, не совсем легальным Плачущий Кто что думает о бесплатной CuneiForm?
6. Можно задать вопрос - почему PDF, а не Ди-ви-джи? С
PDF я работал, более-менее его знаю, а Ди-ви-джи только читал. Да и на некоторых планшетах он по-моему "не идет". Хотя размер у него вроде меньше?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #49 - 09.10.2013 :: 12:16:54
 
Alex2013 писал(а) 09.10.2013 :: 11:13:58:
Они меня за одно место не возьмут?

формально - могут.
Волков бояться - в лес не ходить.

Насчёт дешёвых фотоаппаратов: проверьте качество получаемого jpeg. Буковки могут быть неразборчивыми после сжатия.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #50 - 09.10.2013 :: 12:23:00
 
@
Alex2013
1. Вам в первом же посте ответили про сканер, а не про фотоаппарат. За 3 тысячи можно купить не только б/у, но и вполне нормальный новый сканер А4. А смелого человека вообще ничто не пугает. Такой человек не боится, а лишь опасается. Я вот, например, опасаюсь дилетантов с фотоаппаратами, которые хотят копировать литературу. Потому что в таких случаях почти всегда получается дрянь.
2. Имхо, качество оптики гораздо важнее. В фотоаппарате за 2500 рублей оптика наверняка отвратительная.
3. Тогда вам не сюда. Подавляющее большинство постоянных участников этого форума предпочитают факсимиле. А распознанный текст служит приятным, но не обязательным дополнением.
4. Возьмут, но не сразу. Главное, не пишите правообладателям о том, что вы собираетесь нарушать их права. А то некоторые умудряются именно так и поступать. Кстати, если газеты уже нет, это ещё не значит, что и правообладателя тоже нет. Полно всяких организаций типа АльфаБетаГамма-Груп или ХХХ-Банк, которые напокупали всяких активов и теперь сидят на них, не зная, что с ними делать.
5. CuneiForm — бесплатная низкокачественная дрянь.
6. Нет такого понятия: "Ди-ви-джи". Если уж о чём-то пишете и просите серьёзного совета, потрудитесь хотя бы изучить термины. К тому же тут полно тех, кто очень уважает формат djvu. Чем отличаются pdf и djvu и чем они схожи — информации полно, в том числе и на этом сайте. Повторять ещё раз — выглядит метанием бисера.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #51 - 09.10.2013 :: 12:54:25
 
Alex2013
У меня были в пользовании сканеры А3 разного класса, ничего пугающего Улыбка

Цитата:
Присмотрел себе 16 мегапиксельный фотик Canon A1400. Стоит 2500 руб.

Фотик плох для А3 (мягко выражаясь), даже по меркам мыльниц Улыбка Предстоит нехилая обработка... Вы готовы? Улыбка
ISO 100
http://i2.rozetka.ua/goods/9768/canon_a1400_black_9768771.jpg
http://i3.rozetka.ua/goods/9768/canon_a1400_black_9768913.jpg
http://www.nix.ru/art/pic/samples/sp1366439955.jpg
А по сути...
Пробуйте, ваше право, ваши газеты. Улыбка Когда начнёте, выложите пару получившихся оригиналов.
Встаёт вопрос освещения, чем оно будет равномерней и достаточным, тем меньше последующей обработки.
И главный вопрос-то как раз обработка получившегося. Чем лучше обработаете, тем меньше будет ошибок на распознавании.

Успехов!

http://www.dkamera.de/testbericht/nikon-coolpix-p330/abbildungsleistung.html
http://www.dkamera.de/media/testberichte/panasonic/lumix-dmc-tz41/5_testaufnahme...
http://www.dkamera.de/media/testberichte/olympus/sp-800-uz/5_testaufnahmen/3_eck...
http://www.dkamera.de/media/testberichte/canon/powershot-sx280-hs/5_testaufnahme...
http://www.dkamera.de/media/testberichte/nikon/coolpix-p330/5_testaufnahmen/3_ec...
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #52 - 09.10.2013 :: 13:15:43
 
Меня немножко удивила агрессивность старожилов к новичку....Не научился я еще на этом форуме цитировать, поэтому отвечу так:
1-2.  Да, сканер А4 можно купить. Но я достаточно внимательно прочитал этот топик, чтобы понять с какими трудностями я столкнусь: огромные размеры файла, трудности со склейкой нескольких изображений.Просто хочется узнать у тех кто использовал такой метод: хватит ли 16 мегапс. на формат А2 420 x 594 мм. (я несколько ошибся с размером) Плачущий Т.е. на размер листа многих газет. Интересует именно мнение практика, а не теоретика.
3. Факсимиле совсем не сочетается с распознанным текстом?
5. Назвать своего собеседника свиньей - это круто и очень смело. В Интернете...
Википедия пишет, что "DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу." Сказать это было выше вашего достоинства?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #53 - 09.10.2013 :: 13:35:16
 
Alex2013 писал(а) 09.10.2013 :: 13:15:43:
Меня немножко удивила агрессивность старожилов к новичку...

Подмигивание Возможно, это вам предъявляют цену за пропуск в категорию старожилов. Должны же они чем-то отличаться от новичков кроме наименования и даты первого посещения.
никого не хочу задеть! Очень довольный
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #54 - 09.10.2013 :: 13:50:39
 
@
Alex2013
К вам нет никакой агрессии, если вы её видите, то вы ошибаетесь!
Вы хотите "и рыбку съесть, и рук не замарать". Вам написали желаемое, чтобы осуществить вашу мечту. Где вас назвали "свиньёй" в упор не замечаю, если вы о бисере, то это называется "учите матчасть!" прежде чем формировать требования и просить совета. Улыбка

Теперь о А2. Вот пример фото сделанного Кэнон 7Д (18МП) и макрообъективом Кэнон 60мм газеты формата А2+:
http://img-fotki.yandex.ru/get/5301/krychenkov.4c/0_55cee_130bcced_orig
Тут маленький шрифт, так что на современных газетах будет нормально.

3. Сочетается, но подразумевает сохранение сканированного оригинала прежде всего!
5. Уже выше ответил. По дежавю другие ответят.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #55 - 09.10.2013 :: 15:18:51
 
@
Alex2013
Зато теперь вы сумели правильно написать название формата. И даже залезли в Википедию. А вот без намёков на свиней не удосужились этого сделать.
Наверх
 
 
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 279
Re: Сканирование газет
Ответ #56 - 09.10.2013 :: 22:41:35
 
Alex2013 писал(а) 09.10.2013 :: 13:15:43:
хватит ли 16 мегапс. на формат А2 420 x 594 мм.

Грубо 16 миллионов разделить на произведение 420 x 594 получается примерно 64, 8X8 пикселелей на миллиметр. Переводя в дюймы, получим примерно 200 DPI. При идеальном освещении и на безрыбье жить можно, но плохо. Можно разбивать на два (и более) снимка - получится получше, но опять колбасится со склейкой и т.д. На самом деле все хуже, потому что объективы, особенно недорогие, не могут обеспечить равномерную фокусировку по всему полю, чем ближе к краю, тем больше "мыла". Поэтому если у вас нет профессиональной фотоаппаратуры, недорогой сканер даст существенно (несоизмеримо) лучшие результаты. Программ умеющих склеивать куски - есть, не пробовал для текстов, но с обычными фото замечательно справляется PTGUI, в фотошопе вроде тоже что-то появилось. Вобщем, в рамках условий, на мой взгляд, покупать недорогой фотоаппарат нецелесообразно - и фото будут посредственные, и "фотосканирование" ужасным. Бесполезно потратите деньги, лучше книжек на них купить для самообразования, или пропить с друзьями Улыбка
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #57 - 10.10.2013 :: 07:53:06
 
joker2156 писал(а) 09.10.2013 :: 22:41:35:
При идеальном освещении и на безрыбье жить можно, но плохо.

Нормально живётся. Не наводите тень на плетень. Плохо только на плохих оригиналах, там и сканирование не поможет. А с форматами больше чем А4 фактически другого выхода нет, можете у AAW спросить во что ему обошлось сканирование книги "История человечества", которую я до сих пор собираю постранично, при том что ещё обработка не делалась. Улыбка
Просто нужно подходить с головой, а не хотелкой.

При поставленной Alex2013 задачей и озвученным бюджетом, его выбор, на данный момент, это сканер + много терпения + много работы по обработке. Если он увеличит бюджет раза в три-четыре, тогда можно посмотреть в сторону перефотографирования.

Ему же я рекомендую просто взять газету, у кого-нибудь фотик с близкими характеристиками, выйти в яркий день и сфотографировать газету, а потом оценить результат. Это будет самым действенным выбором и непосредственный опыт.

Но похоже человек обиделся Улыбка

Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #58 - 10.10.2013 :: 09:58:51
 
AAW писал(а) 09.10.2013 :: 13:35:16:
Подмигивание Возможно, это вам предъявляют цену за пропуск в категорию старожилов. Должны же они чем-то отличаться от новичков кроме наименования и даты первого посещения.
никого не хочу задеть! Очень довольный


"— Так, что бы вы чухали — кто барабанил полгода, тот молодой, он шестерит черпаку — это кто протянул год, а черпак ходит под дедом, дед разменял полтора года, он уважает дембеля." (с)  Улыбка
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #59 - 10.10.2013 :: 10:08:26
 
Kis писал(а) 09.10.2013 :: 15:18:51:
@
Alex2013
Зато теперь вы сумели правильно написать название формата. И даже залезли в Википедию. А вот без намёков на свиней не удосужились этого сделать.


Басурманским языкам не обучался, но Библию помню:

«Не давайте святыни псам и не мечите бисера вашего перед свиньями, чтобы они не попрали его ногами своими и, обратившись, не растерзали вас».
Матфей (гл. 7, ст. 6)

За искажение имени Великого Бога DjVu на форуме полагается  эцих с гвоздями?
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #60 - 10.10.2013 :: 10:21:14
 
В принципе, вы меня убедили... "Мыльницей" отснять лист газеты формата А2 - занятие почти невозможное...
Тем более, что нашел тест выбранного фотоаппарата в уважаемом журнале http://www.ichip.ru/testy/foto-video/2013/06/test-cifrovaya-kamera-canon-powersh...;  Смущённый Посмотрел цены на сканеры такого формата... Даааа... Квартиру я не готов продавать.
Может быть попробовать портативный ручной сканер типа Bliss HandyScan A201? http://www.mobi.ru/Articles/5304/Obzor_portativnogo_ruchnogo_skanera_Bliss_Handy...
Из описания я правда не понял, есть ли там программа, которая будет автоматически склеивать отсканированные полосы? Если у кого есть опыт использования таких девайсов, было бы интересно услышать отзывы.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #61 - 10.10.2013 :: 10:48:50
 
@ Alex2013
Alex2013 писал(а) 10.10.2013 :: 10:08:26:
За искажение имени...

да нет же, за неуважение к участникам, не передергивайте.
slava_kry писал(а) 09.10.2013 :: 13:50:39:
это называется "учите матчасть!" прежде чем формировать требования и просить совета

Очень правильный совет, подтвержден личным опытом. Родители крепко впечатали мне в шаблоны поведения, что вначале я должен отработать все попытки самостоятельно решить проблему, а уж потом обратиться за помощью. Не отнимать время зазря. Бесценный навык.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #62 - 10.10.2013 :: 11:14:59
 
Alex2013 писал(а) 10.10.2013 :: 10:21:14:
Из описания я правда не понял, есть ли там программа, которая будет автоматически склеивать отсканированные полосы?

Нет там такой программы. Вам проще самому подобрать программу для этого, та которая будет "по нраву".

Alex2013 писал(а) 10.10.2013 :: 10:21:14:
Если у кого есть опыт использования таких девайсов, было бы интересно услышать отзывы.

По картинкам в статье и так всё понятно Улыбка
1. Результат CIS линейки - неравномерные "провалы" резкости, это родовое пятно технологии. Не лечится ничем.
2. Видны "сдвиги" частей изображения из-за неравномерного движения сканера по поверхности. Это самое грустное, возможно части которые отсканируете, потом не сможете склеить. Улыбка

Проще купить планшетник, гораздо качественней сканит и геморроя меньше со склейкой будет. Улыбка Только берите с CCD линейкой, а не CIS!
Как происходит склеивание частей показано тут на примере Шопа: http://youtu.be/DXQbfPlV9KM
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #63 - 10.10.2013 :: 16:36:39
 
Самый дешевый сканер с CCD линейкой, какой я нашел в розничной продаже недалеко от дома - HP "Scanjet G3110" A4. цена 3 637 pуб.

http://fcenter.ru/product/goods/76219-Skaner_HP_Scanjet_G3110_A4_USB2_0

Слайд-адаптер в нем для меня лишний - есть метод перевода слайдов в "цифру" простой мыльницей.

С другой строны - МФУ Canon "PIXMA MP230" стоит всего 1 700 руб. , хотя и с  с CIS-датчиком. Но он еще и печатает. Насколько я помню, недостаток CIS - малая глубина резкости. Но так ли это важно при работе с одним черно-белым листом газеты?

http://fcenter.ru/product/goods/110750-MFU_Canon_PIXMA_MP230_USB2_0

http://www.canon.ru/For_Home/Product_Finder/Printers/Inkjet/PIXMA_MP230/

Кстати, когда делал фотопанорамы, использовал программу ArcSoft Panorama Maker 3. Там есть функции собирания фотографий:
- по горизонтали
- по вертикали
- 360 градусов
- Собирание фотографии из картинок по вертикали и горизонтали. На рисунке там четыре фотки "слипаются" в одну.  Типа как пазл. Будет ли это работать с текстом - вопрос.
Наверх
 
 
IP записан
 
Vozelen ZL
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: Сканирование газет
Ответ #64 - 10.10.2013 :: 16:56:48
 
Alex2013, чтобы точнее определиться с аппаратом, я посоветую попробовать склеить пару, а лучше сразу 4 скана в лист А2. Поняв, какие есть сложности, возможно вы будете склоняться к сканеру А3 от Мустек, а возможно освоите фотографирование, хотя фотосканы на порядок хуже, но склеивание жутко муторное дело. Вам надо попробовать, возможно вы фотограф и обработкой занимались. Датчик CIS не так страшен, как о нём отзываются, думаю до сих пор их больше, чем CCD, тут важнее плотно прижимать газету к стеклу, для этого можно использовать фанеру или толстый пластик - разницу вы увидите. CCD хорош, но если газеты на А4 делать, то вам быстро надоест. Правильнее для вас сейчас начать обучение обработке, можно с разных источников (А4, А3, фотоаппарат), а пока учитесь подкопите на Мустек, он 7-10 т.р. Можно и б/у взять за 3-5, но это уже вам думать. Ну, а если вам нужен и принтер, то дело ещё хуже, придеться вам кропотливее обрабатывать, это действительно не так легко.
Наверх
 
 
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #65 - 10.10.2013 :: 17:26:19
 
@
Alex2013
Ваше право, берите на CIS. Улыбка

Склеивать можно многим, другое дело - чем проще всего. Улыбка Главное не забывайте про перекрытие, хотя бы 10-15%. Попробуете, поймёте.
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #66 - 10.10.2013 :: 17:41:31
 
Я не очень понял, зачем в сканере документ ещё и фанерой прижимать. Там вроде у крышки пружинки есть? Есть одна просьба. Для тренировки и понятия процесса склейки картинок А4 в А2 нельзя ли  выложить тут ссылки (может они и были?) на сканированные исходники
страницы какой-нибудь газеты А2 и получившийся после склейки результат? И еще - какое разрешение должно быть у сканера для вышеозначенной задачи?
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #67 - 10.10.2013 :: 20:46:56
 
@
Alex2013

Вам всё надо по два раза повторять?
slava_kry писал(а) 10.10.2013 :: 07:53:06:
Просто нужно подходить с головой, а не хотелкой.

Ещё не сообразили?
slava_kry писал(а) 09.10.2013 :: 13:50:39:
Теперь о А2. Вот пример фото сделанного Кэнон 7Д (18МП) и макрообъективом Кэнон 60мм газеты формата А2+:http://img-fotki.yandex.ru/get/5301/krychenkov.4c/0_55cee_130bcced_orig

Всё ещё не сообразили?

Скачайте, отрежьте от большого файла четыре угла, каждый с запасом, да и попробуйте склеить. Потом поверните некоторые куски на несколько градусов, и снова попробуйте склеить. О результатах доложите. Улыбка
Неужели включение соображалки — это
Alex2013 писал(а) 09.10.2013 :: 13:15:43:
выше вашего достоинства?


Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #68 - 10.10.2013 :: 21:05:36
 
Alex2013 писал(а) 10.10.2013 :: 10:21:14:
Посмотрел цены на сканеры такого формата... Даааа... Квартиру я не готов продавать.

да уж - "всего-то" 780000 р.... ну или такого порядка
...
http://ru-scan.ru/Products2/5/
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5430
Екатеринбург
Пол: male
Re: Сканирование газет
Ответ #69 - 10.10.2013 :: 21:15:15
 
да расслабьтесь вы. Второй kamenkapenza заглянул. Бывает.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #70 - 10.10.2013 :: 21:22:45
 
Ну, этот существенно поумнее выглядит. Поэтому и хочется дать пинок в нужную сторону.
Наверх
 
 
IP записан
 
joker2156
Активист
***
Вне Форума



Сообщений: 279
Re: Сканирование газет
Ответ #71 - 10.10.2013 :: 23:01:13
 
slava_kry писал(а) 10.10.2013 :: 07:53:06:
Нормально живётся. Не наводите тень на плетень.

Вы об чем? Вы хотите кого-то убедить, что 200 dpi снятые мыльницей в домашних условиях даст лучшие результаты чем 600 dpi на бытовом сканере? Или вы у меня еще что-то прочли? Ну так вы еще раз прочтите..
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #72 - 11.10.2013 :: 16:05:14
 
Очевидно, что кое-кому здесь корона на голову давит...
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #73 - 11.10.2013 :: 17:42:56
 
Alex2013 писал(а) 11.10.2013 :: 16:05:14:
Очевидно, что кое-кому здесь корона на голову давит...

ну так на чем Вы все-таки остановились? пробовали что-то уже сделать?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #74 - 11.10.2013 :: 18:28:19
 
Пока экспериментирую с распознованием разными программами, коих знаю  две:  CuneiForm и FineReader. Вторая кажется более продвинутой. Склоняюсь к тому, чтобы фотографировать лист А2 два раза, а затем совмещать изображения. Если работать со сканером, придется "лепить" 4 фото. Это более трудоемко. И вообще, подобное занятие требует большой усидчивости и внимательности. Но всё же - мы не привыкли отступать !

Dmitry7 писал(а) 11.10.2013 :: 17:42:56:
ну так на чем Вы все-таки остановились? пробовали что-то уже сделать?

Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Сканирование газет
Ответ #75 - 11.10.2013 :: 20:28:54
 
Alex2013 писал(а) 11.10.2013 :: 18:28:19:
Пока экспериментирую с распознованием разными программами, коих знаю  две:  CuneiForm и FineReader. Вторая кажется более продвинутой. Склоняюсь к тому, чтобы фотографировать лист А2 два раза, а затем совмещать изображения. Если работать со сканером, придется "лепить" 4 фото. Это более трудоемко. И вообще, подобное занятие требует большой усидчивости и внимательности. Но всё же - мы не привыкли отступать !


можете выложить на файлообменник и бросить сюда ссылку на файл-картинку фотографии газетного листа, чтобы оценить обрабатываемость ?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #76 - 11.10.2013 :: 21:08:03
 
Dmitry7 писал(а) 11.10.2013 :: 20:28:54:
можете выложить на файлообменник и бросить сюда ссылку на файл-картинку фотографии газетного листа, чтобы оценить обрабатываемость ?



Когда куплю фотоаппарат.
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #77 - 11.10.2013 :: 21:11:57
 
М-да... Соображалка так и не включилась.
Наверх
 
 
IP записан
 
Vozelen ZL
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: Сканирование газет
Ответ #78 - 12.10.2013 :: 19:36:50
 
Alex2013, не спешите покупать такой фотоаппарат, с которого придеться потом клеить по 2 части. Склейка фототекста ещё сложнее, чем со сканера. Искажения по краям не дают ровно провести линию слеивания. Для пробы попробуйте щелкнуть на телефон, не обязательно полную страницу, для пробы достаточно будет 2-х кусков в любом месте. Заранее скажу, что фотоаппарат будет полезен лишь в случае фото полной страницы, без последующей склейки. И тут будет очень играть роль количество мегапикселей аппарата, т.к. на выходе очень хочеться бОльшую картинку. Склеить 4 части со сканера А4 тоже не просто, т.к. теже отклонения в долю градуса по вертикали не дадут потом ровной стыковки по горизонтали. Для тренировки скачайте http://mirknig.com/2010/11/16/gazeta-pravda-182-chetverg-30-iyunya-1988-goda.htm... , сканирование сделано не идеально, запаса пересечения мало, но этого файла будет достаточно, чтоб понять сложности склеивания 4-х частей. Потому оцифровку газет наиболее легко делать с фотоаппарата с достаточным числом мегапикселей, чтоб текст не сливался и был читаемый, либо использовать сканер А3, где достаточно одной линии склеивания, хотя и не всегда, иногда лучше сканировать лист А2 на 3 прохода в А3.
Про то, что вы пробуете распознавание это хорошо, но сейчас не так важно, как определиться с выбором аппарата. Яндекс и Гугл умеют индексировать файлы PDF и без распознавания и выдают содержимое при совпадении поискового запроса. Но это при условии, что к файлу будет прямая ссылка, без архива. Для точного распознавания будут в выигрыше копии именно со сканера, но сам процесс занимает слишком много времени, и если вы планируете оцифровать много материала, то нет смысла это делать.
Если вы склонны к покупке фотокамеры, чем сканера А3, то заранее дам ссылку на подборку статей "Сделай сканер своими руками:" http://atiz.ru/index.php?route=product/category&path=72 , хотя мне больше нравятся копии со сканера.
На сегодня самый дешевый сканер пригодный для сканирования газет - это линейка широкоформатных протяжных Colortrac SmartLF Sc 25m/c/e от 123 т.р. за монохромный, и пока ещё сохранились в продаже снятые с производства 24-х дюймовые http://www.prof-scan.ru/catalog/large_format_scanner/?f1=2az7buf0000e8garrd0z9cx... от 116 т.р. за монохром, хотя версия "e" наиболее привлекательна, он цветной-скоростной. За эти сканеры квартиру продавать не нужно, а достаточно найти единомышленников и скинуться.
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #79 - 12.10.2013 :: 19:40:12
 
Вежливость порождает и вызывает вежливость (с) Эразм Роттердамский
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #80 - 12.10.2013 :: 19:51:45
 
Vozelen ZL писал(а) 12.10.2013 :: 19:36:50:
Alex2013, не спешите покупать такой фотоаппарат, с которого придеться потом клеить по 2 части. Склейка фототекста ещё сложнее, чем со сканера. Искажения по краям не дают ровно провести линию слеивания. Для пробы попробуйте щелкнуть на телефон, не обязательно полную страницу, для пробы достаточно будет 2-х кусков в любом месте. Заранее скажу, что фотоаппарат будет полезен лишь в случае фото полной страницы, без последующей склейки. И тут будет очень играть роль количество мегапикселей аппарата, т.к. на выходе очень хочеться бОльшую картинку. Склеить 4 части со сканера А4 тоже не просто, т.к. теже отклонения в долю градуса по вертикали не дадут потом ровной стыковки по горизонтали. Для тренировки скачайте http://mirknig.com/2010/11/16/gazeta-pravda-182-chetverg-30-iyunya-1988-goda.htm... , сканирование сделано не идеально, запаса пересечения мало, но этого файла будет достаточно, чтоб понять сложности склеивания 4-х частей. Потому оцифровку газет наиболее легко делать с фотоаппарата с достаточным числом мегапикселей, чтоб текст не сливался и был читаемый, либо использовать сканер А3, где достаточно одной линии склеивания, хотя и не всегда, иногда лучше сканировать лист А2 на 3 прохода в А3.
Про то, что вы пробуете распознавание это хорошо, но сейчас не так важно, как определиться с выбором аппарата. Яндекс и Гугл умеют индексировать файлы PDF и без распознавания и выдают содержимое при совпадении поискового запроса. Но это при условии, что к файлу будет прямая ссылка, без архива. Для точного распознавания будут в выигрыше копии именно со сканера, но сам процесс занимает слишком много времени, и если вы планируете оцифровать много материала, то нет смысла это делать.
Если вы склонны к покупке фотокамеры, чем сканера А3, то заранее дам ссылку на подборку статей "Сделай сканер своими руками:" http://atiz.ru/index.php?route=product/category&path=72 , хотя мне больше нравятся копии со сканера.
На сегодня самый дешевый сканер пригодный для сканирования газет - это линейка широкоформатных протяжных Colortrac SmartLF Sc 25m/c/e от 123 т.р. за монохромный, и пока ещё сохранились в продаже снятые с производства 24-х дюймовые http://www.prof-scan.ru/catalog/large_format_scanner/?f1=2az7buf0000e8garrd0z9cx... от 116 т.р. за монохром, хотя версия "e" наиболее привлекательна, он цветной-скоростной. За эти сканеры квартиру продавать не нужно, а достаточно найти единомышленников и скинуться.



Спасибо за содержательный пост. Он требует некоторого времени на осмысление... У меня есть сомнения, что поисковые системы индексируют нераспознанные PDF...
PS. В телефоне у меня нет камеры. Никакой. Увы!
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #81 - 12.10.2013 :: 20:02:25
 
Я был прав в своих сомнениях:

–В документах PDF индексируется только текстовое содержимое. Текст, представленный в виде картинок, не индексируется.
–Яндекс корректно индексирует документы в формате Open Office XML и OpenDocument (в частности, документы Microsoft Office и Open Office).

http://help.yandex.ru/webmaster/recomend.pdf

Не думаю, что у Гугла по другому.
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #82 - 12.10.2013 :: 21:23:35
 
@
Alex2013

Задавание простеньких вопросов на серьёзном форуме серьёзным людям (при условии, что ответы на такие вопросы элементарно отыскиваются в интернете) и полное игнорирование полученных советов — это даже не невежливость, это ничем не прикрытое хамство. А уж оверквотинговый ответ "У меня есть сомнения, что поисковые системы индексируют нераспознанные PDF..." на серьёзный пост с технической информацией о сшивании кусков исходников, фотокамерах и сканерах, а также о том, что "Яндекс и Гугл умеют индексировать файлы PDF и без распознавания" — это вообще свидетельство того, что в адресованных вам посланиях вы вычитываете не то, что там написано, а какой-то собственный бред.
Тьфу на вас, Алекс Глупышкин 2013 года рождения, продолжайте создавать себе трудности, которых вы якобы не боитесь, но и никогда не преодолеете.
Можете ещё кликнуть сюда, но я не верю, что до вас хоть что-то дойдёт.
Наверх
 
 
IP записан
 
Alex2013
Новичок
*
Вне Форума


Всем привет!

Сообщений: 15
Re: Сканирование газет
Ответ #83 - 12.10.2013 :: 21:51:27
 
В свое время, еще при советской власти, я закончил Московский полиграфический институт, так что на ваши хамские бла-бла-бла мне глубоко плевать. Тешьте и дальше  свое самолюбие, это так смешно Смех!
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Сканирование газет
Ответ #84 - 12.10.2013 :: 22:09:36
 
Оно и видно: такой крЮтой профессиАнал с первого раза всё понял о геометрических искажениях и нашёл все способы решения.
Наверх
 
 
IP записан
 
Vozelen ZL
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: Сканирование газет
Ответ #85 - 12.10.2013 :: 22:40:53
 
Alex2013, возможно что-то изменилось в политике Яндекса и теперь индексация не производится, во всяком случае у них некорректно настроена поисковая система по запросам, либо я его недолюбливаю. Про гугл могу точно утверждать, что в выдачу идут нераспознанные страницы, во всяком случае с гуглом всё гораздо проще, и найти нужное не так сложно. Для примера возьмём запрос по вашей теме, то есть именно на газеты. Допустим, в поисковую строку гугл вводим
pdf газета правда 1964
pdf - чтоб найти этот тип файлов
газета - это по вашей теме
правда - потому что их много
1964 - просто что-то давнишнее, не современные типографские файлы
Жмите enter
Переходите на первую попавшуюся ссылку - в Люберцы.
Чуть ниже видите ссылки на скачивание, почему-то я ткнул в 4-ую
Люберецкая правда 138 (8936) — 21/11/1964 — Скачать (5,43Mb)
Оказался отличный файл, он не распозан, то что надо для проверки.
Теперь нам нужно создать запрос в гугле, чтоб узнать проиндекирован ли он. Для этого нам понадобится ссылка на этот файл (правой кнопкой мыши по Скачать). Откроем поисковую строку Гугла и введём такой запрос
138 site:lubernet.ru/id/191/download/940/
Поясню: 138 - потому что номер газеты такой и значит эта цифра есть внутри, а слово site:*** - для точного указания места поиска.
Жмите enter
Ответ есть и файл проиндексирован, нажав на стрелку справа от ссылки посмотрите на сохраненную копию.
http://webcache.googleusercontent.com/search?q=cache:3z4u17fbvGwJ:lubernet.ru/id...
Видно, что гугл не идеально справился, но все же работает.
В данном случае проиндексирована лишь одна страница, но бывает что и до 10 успевает запомнить.
Alex2013, про склеивание двух фото в одну страницу предлагаю просто поверить на слово и не тратить время на тесты.
Наверх
 
 
IP записан
 
Vozelen ZL
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: Сканирование газет
Ответ #86 - 13.10.2013 :: 22:35:44
 
Alex2013, для вас подборка подходящего оборудования:
фотоаппараты -
Samsung WB110 Black = 6000 р. Новинка
http://euroset.ru/catalog/photo-video/cameras/samsung/-/samsung-wb110-black/?utm...
Sony DSC-H200 Cyber-Shot = 6000 р. Подарю 2 карты по 8 Гб (около 2 т.р), если Москва.
http://www.pleer.ru/_81829_Sony_DSC_H200_Cyber_Shot.html

сканеры -
Mustek ScanExpress A3 SP = 2200 р. б/у Уникальное предложение.
http://www.avito.ru/moskva/orgtehnika_i_rashodniki/mustek_scanexpress_a3_sp_1859...
Mustek Paragon P 3600 A3 Pro = 6000 р. б/у Уникальное предложение. CCD датчик. Новый около 30 т.р.
http://www.avito.ru/moskva/orgtehnika_i_rashodniki/mustek_paragon_p_3600_a3_pro_...
и ещё такой же с пробегом "пару раз" = 13000 р.
http://www.avito.ru/moskva/orgtehnika_i_rashodniki/skaner_mustek_p3600_a3_pro_21...
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 337
Москва
Пол: male
Re: Сканирование газет
Ответ #87 - 14.10.2013 :: 06:40:49
 
Цитата:
сканеры -
Mustek ScanExpress A3 SP = 2200 р. б/у Уникальное предложение.

Его лучше не брать, тормозной собака до невозможности, да и с дровами даже по выньХР будет бооольшая проблема, нет там их, сам лет 6-7 назад мучался с подключением.
Наверх
 
 
IP записан
 
Vozelen ZL
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: Сканирование газет
Ответ #88 - 14.10.2013 :: 08:09:33
 
Владислав_72, видимо да, не заметил этот момент, скорее всего так и есть, отметил лишь что нет соединения по USB, но может быть Alex2013 использует не самый свежий компьютер и Win98.
Согласен, этот сканер не самый удачный вариант, так же как и фотоаппараты. Я немного озадачился и уточнил какие у нас на работе стоят камеры в фотосканерах, оказалось 10-12 Мп, и лишь в одном комплексе 16 Мп. Но они перефотографируют лишь формат до А4, а от А3 и выше используются только комплексы со сканерами. И конечно же, класс фотокамер на 2 порядка выше предлагаемых мной.
Цифры: A2 = 420 x 594 мм = 16,54 х 23,39 дюйма. При 300 DPI разрешение по сторонам будет = 4962 х 7017 = 34818354 пикселей = 34,8 мегапикселей. Вот такой должен быть фотоаппарат, чтобы сравняться со сканером для страниц А2, хотя у любого сканера есть еще возможность сканирования более 300 точек на дюйм. Но фото не нужно клеить, и вытянуть нормальный результат для А2 тоже можно, и в защиту варианта с Sony отмечу, что там снимки выходят с 350 DPI.
Mustek за 6 т.р. тоже опасно брать с неопытным взглядом, он хоть и рабочий, но уже поживший и возможно цветные полосы присутствуют, либо появляются после часа работы, потому и избавляются подешевле. Ремонт таких аппаратов как обычно невыгоден и приходиться закрывать глаза на полосы, у Alex2013 в планах цветные страницы необязательны, потому может и такой ещё послужит.
Ясно что за 13 т.р. наилучший вариант, но если пока нет таких средств, то можно рассмотреть все 4 верхних предложения.
Наверх
 
 
IP записан
 
ALANIS_Soft
Новичок
*
Вне Форума


Всем привет!

Сообщений: 1
Пол: male
Re: Сканирование газет
Ответ #89 - 05.05.2014 :: 11:37:34
 
Уважаемые форумчане, добрый день.

Мы, новосибирцы, разработчики ПО в области оцифровки печатных документов. Одно из наших направлений разработки - это ПО для книжных сканеров на базе фотокамер Canon EOS. Насколько я понимаю, в сканировании газет, первая проблема - собственно сканирование. Пользуется ли кто-либо из Вас цифрозеркалками Canon в качестве стационарного устройства для сканирования (фотографирования) газет? Если да, интересно ли Вам попробовать наш софт в ознакомительных целях, может быть дать какие-то рекомендации по удобству пользования и расширению функций? Вообще, мы много чего полезного делаем для оцифровки. Я понимаю, что на форуме, в основном, общаются энтузиасты этого дела. Мы же ориентируемся на профессиональный рынок, однако проблемы везде общие, мне кажется. Мнение экспертов нам лишним не будет, может, и мы внесем свою лепту в общее дело.
Наверх
 
WWW  
IP записан
 
slava_kry
Гуру
****
Вне Форума



Сообщений: 551
Re: Сканирование газет
Ответ #90 - 05.05.2014 :: 14:02:32
 
@
ALANIS_Soft
Я занимался фотографированием как газет, так и книг от А4 до А2. Улыбка
Если ч/б газеты, то проблема обычно одна - формат издания и его размер шрифта, соответственно вопрос к используемому объективу. Я использовал связку Canon 7D + Canon EF-s 60/2.8 macro. Но при этом встаёт вопрос размеров, т.к. съёмка А4 это ~1,5-1,8 метра от оригинала, т.к. у макрушников маленький угол зрения, зато максимальная резкость и отсутствие аббераций.
Пример того с чем сталкиваешься: http://silver-ktulhu.livejournal.com/18313.html#cutid1 - это формат А3+

Можно попробовать ваш софт, но что вы ожидаете? Просто юзабилити или нечто большее?
Наверх
 

Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
 
IP записан
 
Страниц: 1 
Послать Тему Печать