OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 3 4 
Послать Тему Печать
Подскажите по техпроцессу (Прочитано 36793 раз)
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #30 - 23.10.2020 :: 15:44:25
 
AAW писал(а) 22.10.2020 :: 12:34:36:
Я бы за сканы с такими ненормальными заворотами вообще не брался. Стр 347 это же ахтунг.

Не переживайте! Ничего не теряете. Вы и так не беретесь, Абсурдмэн только зря старается. Кстати, у вас, добрейший AAW, сканы чем лучше? Вы обложку с руки сканируете фотоаппаратом, и сканы ваши разного дпи (то есть страницы разного размера), мне приходилось выравнивать их через Ирфан вью. У Абсурдмэна все страницы одинаково сканированы. Поэтому не стоит бочку на Absurdman катить (про сучок и бревно в глазу..., не мне вас учить)
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #31 - 23.10.2020 :: 15:47:48
 
AAW писал(а) 23.10.2020 :: 15:37:22:
трепло. krestik делал специальную ветку с видео
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1535746511

Там нет такого видео, это специфические ролики по решению определенных проблем. Я про то видео (которого нигде нет), когда кто-то показывает ВЕСЬ процесс от начала до конца в ролике по обработке книги.  На Тейлор я могу вам дать ссылку на полную обработку. Где на полную обработку в Кромсаторе? Всё сплошь голые слова и обещания!
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #32 - 23.10.2020 :: 16:00:21
 
kamenkapenza
Там есть видео полной обработки. Значит, ты их и не смотрел.
Кто хочет - ищет способ. Кто не хочет - ищет причину.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #33 - 23.10.2020 :: 16:07:05
 
AAW писал(а) 23.10.2020 :: 16:00:21:
Там есть видео полной обработки. Значит, ты их и не смотрел.
Кто хочет - ищет способ. Кто не хочет - ищет причину.

Там нет такого видео!!! Никто ещё (ума ни у кого не хватило, ни усидчивости, ни  терпения снять видео полной обработки хотя бы книги без иллюстраций. Для Тейлора есть видео полной обработки на 3 часа. Это легко всё делается: сидишь, делаешь, калякаешь, что и к чему, принимая к сведению, что пользователь вообще ничего не кумекает в этот деле, ему надо рассусолить и разжевать до мелочей. Вот Для Тейлора, полная обработка книги https://www.youtube.com/watch?v=gKuu4qwnG0U
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #34 - 23.10.2020 :: 16:13:14
 
kamenkapenza писал(а) 23.10.2020 :: 16:07:05:
Там нет такого видео!!!

Не просмотришь все ролики - не узнаешь Улыбка Интрига!
Я, в общем, не трепло. Как минимум в двух роликах мной было показано как книгу загрузить, подготовить сканы, почистить и закодировать. Среди прочих проблем, которым ролики были посвящены. Там это занимает-то минут десять. Сделай заодно доброе дело, если найдёшь эти места, сведи полезный тебе кусок в отдельное место.
И помнится у Никитина-Перенского был ролик по полной обработке, до выхода в djvu small.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #35 - 23.10.2020 :: 16:27:39
 
AAW писал(а) 23.10.2020 :: 16:13:14:
И помнится у Никитина-Перенского был ролик по полной обработке, до выхода в djvu small.

У него тоже нет, он взял одну страницу и всё. Одна страница - это не книга. Это всё верхи, несерьёзно. Я про другое видео писал - Полный процесс создания книги в одном ролике. Такого видео нет. Кто-нибудь будет делать книгу, не поленитесь записать весь процесс, всего лишь включив микрофон и программу Фаст Каптуре, потом напишете мне в личном сообщении, что видео ролик, которому цены нет, создан и укажите ссылку. Потрудитесь пожалуйста, кто-нибудь! Вы будете героем-первооткрывателем, на ваших роликах будут учиться те, кто хотит, жаждет, но не могёт. В этом ролике, рассказывая о программе, надо всегда держать в уме, что пользователь, слушащий вас, в программе ни бум-бум, первый раз.
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #36 - 23.10.2020 :: 20:58:35
 
kamenkapenza писал(а) 23.10.2020 :: 16:07:05:
Вот Для Тейлора, полная обработка книги https://www.youtube.com/watch?v=gKuu4qwnG0U


kamenkapenza, это ваш видеоролик по ссылке выше?
На канале автора ролика Славы Мацко есть видео Велопоездка №2: Череповец - Каменка Пензенская обл.  Июль 2018. 1100 км за 8 дней. А вы здесь, на форуме, недавно писали (по-моему в удалённом комментарии, не могу его найти), что вы бодры, веселы, сильны духом и за неделю проехали на велосипеде 1000 км.
Если что, я подписался на ваш канал  Подмигивание.
Наверх
« Последняя редакция: 23.10.2020 :: 21:05:24 от mais »  
 
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Сырые сканы (для обработчиков)
Ответ #37 - 24.10.2020 :: 00:16:03
 
Kamenkapenza, в каком-то роде я ваш коллега, я тоже обработал сканы нескольких книг тов. AbsurdMan, результат я выкладывал на этом форуме, указывая авторство сканировщика.

Давайте я поделюсь с вами своими мыслями о книгообработке.
Я тоже поначалу обрабатывал книги в ScanTailor’e, так как ScanKromsator мне казался слишком сложным и не таким интуитивно понятным неискушённому книгообработчику, как ScanTailor, да и некоторые операции в ST делаются быстрее, например, увеличение или уменьшение исходного изображения страницы вращением колеса мышки (справедливости ради, в последней версии ScanKromsator’a тоже появилась эта возможность), выделение и особенно подгонка границ выделения зон изображений, перетаскивание укрупнённого изображения страницы удержанием левой кнопкой мыши.
Хотя когда-то давно, во времена существования сайта Natahaus я сделал несколько книг в ScanKromsator’e (альтернативы ему тогда и не было), но это было давно, и многое позабылось.
Обрабатывая сканы в ScanTailor’e я был не то чтобы доволен, но по крайней мере удовлетворён результатами своей работы. Страницы выровнены, мусор почищен, текст читается, даже цветные зоны сохранены.
Но человек стремится к лучшему, правда? Всё чаще я стал замечать, сравнивая свою работу с работой здешних мастеров, что шрифт в обработанных ими книгах тоньше, изящнее, легковеснее. В ST я такого результата получить никак не мог.
Забегая вперёд скажу, что это касалось сканов с разрешением 300 dpi, позднее я увидел вполне достойные результаты работы участников форума krestik и Геолог, которые делают свои книги в ScanTailor’e, но как выяснилось, они изначально сканируют книги с разрешением 600 dpi с последующим увеличением разрешения обработанных страниц (апсемплингом) до 1200 dpi. Но, например, на моём стареньком сканере сканирование книжного разворота в 600 dpi в градациях серого цвета занимает заметно больше минуты, очень долго. Да и ScanTailor при апсемплинге до 1200 dpi вылетает, компьютер у меня тоже старенький. Так что метод подходит не всем.

Как-то в начале этого года я скачал сканы книги Макаровой «Путешествие в страну майя», ссылки на которые выкладывал здесь AbsurdMan. Я обработал эту книгу в ScanTailor’e, закодировал в формат djvu… и не стал её публиковать.

Вот, смотрите – скриншот фрагмента страницы (обратите внимание на букву «з» с завитушкой в центре, с петелькой):

...

Вот результат обработки страницы в одной из версий ST – ScanTailor Advanced, которая позволяет отключить принудительное сглаживание (а значит и ужирнение) букв.

...

Видите: петелька в букве «з» исчезла, она просто залита чёрным цветом. И это при отключенном принудительном сглаживании букв.

А вот результат обработки в ScanKromsator’e, которым я не очень доволен, так как у засечек букв «н», «и» и т.д. появились этакие арочки, а в оригинале засечки, по-моему, прямые. Хоть и видно это при большом увеличении и при печати на бумаге вряд ли будет заметно, всё равно – непорядок  Улыбка. Но петелька буквы «з» не пропала!

...

Да, в ScanTailor’e тоже можно добиться сохранения петельки, уменьшив порог бинаризации (в примере ниже – до минус 35), но при этом, например, пропала перемычка буквы «п»:

...

А ещё в этой книге практически на каждой странице возле номеров страниц есть орнаменты майя:

...

Которые после обработки в ScanTailor’e выглядят так (при условии сохранения петельки буквы «з»):

...

А после ScanKromsator’a так:

...

Можно, конечно, сказать: «Да какая разница, есть в букве «з» петелька или нет; или видны все детали орнамента или нет? Главное, что книга появилась в интернете и её может прочитать любой желающий!» Но ведь создатели книги чем-то руководствовались, создавая книгу именно в таком виде, труд свой вложили, душу. Нельзя же их труд испохабить, говоря: и так сойдёт!

Материалов по ScanKromsator’у в интернете много, одна Хрестоматия чего стОит! Есть очень познавательные видео уважаемого AAW. Было бы желание учиться, совершенствоваться и делать свою работу хорошо. Программа очень мощная, постоянно развивается и улучшается, её создатель bolega - настоящий подвижник!

Если гуру этого форума подскажут какие настройки наилучшим образом установить в ScanKromsator’e для обработки шрифта книги Макаровой «Путешествие в страну майя», буду признателен.

Ссылка на скан одной из страниц книги ниже (они все отсканированы примерно одинаково по уровню яркости):
https://cloud.mail.ru/public/2P8d/32kodWJM3
Наверх
« Последняя редакция: 24.10.2020 :: 00:22:17 от mais »  
 
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #38 - 27.10.2020 :: 15:05:10
 
mais писал(а) 23.10.2020 :: 20:58:35:
kamenkapenza, это ваш видеоролик по ссылке выше?
На канале автора ролика Славы Мацко есть видео Велопоездка №2: Череповец - Каменка Пензенская обл.  Июль 2018. 1100 км за 8 дней. А вы здесь, на форуме, недавно писали (по-моему в удалённом комментарии, не могу его найти), что вы бодры, веселы, сильны духом и за неделю проехали на велосипеде 1000 км.
Если что, я подписался на ваш канал  .

Спасибо! Это всё я))) И на велосипеде езжу за неделю  1000 км, и про Скан Тейлор рассусоливаю новичкам. Все никак не удосужусь выложить видео про мой второй поход, окончание, так сказать. Там на канале 2 серии про второй поход, за 2 дня я на велосипеде проехал 500 км, потом я 2 дня, 90 км, шел пешком от Судогды до Мурома, до веломастерской, потом есть видео Мурома, бронепоезд и т.п. Третья поездка (в сентябре этого года) тоже не выложена,  снимал мало, ехал и ехал, не отвлекался на съемки, участками,  потом выложу.
Сканкромсатор.... Мне чего с трудом верится, что там есть выравнивание страниц по ширине, потому что там строго заданные поля. А если обрезка у всех страниц разная (резаки там гуляют по каждой странице произвольно и обрезают по разному), то получается, что в пдф получится разная ширина, как я называю, кто в лес, кто по дрова, один ворует, лругой караулит.
Если вы смотрели 2 моих ролика, то я рассусолил всё до мелочей, 2 книги обработал в Скан Тейлоре в прямом эфире, без пауз.
  В Скан Кромсаторе никто не выложил подробного видео по обработке книги.
  Бездельники!!! Одни только слова, что есть видео по обработке. Есть что то и постольку поскольку. Какие то специфические куски. У того же ААУ щелк-щелк, только одни щелчки мыши. Где, что, как, откуда??? Это всё для тех, кто уже к этой программе приблатыкался. Для новичков нет ничего!!! Если бы я понял основные азы, что и почем, я бы выложил подробное разъяснение по программе Кромсатор Скан, но для меня это темный лес, как и для многих (я вижу в этом подтверждение, что программа сложная и многим непонятная) . Почему то в Европе и Америке не считают зазорным публиковать видео ролики по каждой вещи. Купил кто-то отвертку, они её покажут и до..., как вынимают из упаковки, как брать, как откручивать, как хранить, не говоря уже о какой то электронной вещи, там всё разъяснят. У русских один кто-то что то знает и считает, что об этом не надо никому рассказывать подробно, а если что то спросишь, то тебя посчитают идиотом.  А как же ещё? Мы же на сайте умельцев... А что же вы после Кромсатора страницы в пэ дэ эфе далаете по ширине разные? Это уже не книга, а набор страниц! Прокручивать страницы в любой ПДФ-программе это задница! Одна страница занимает весь экран, другая пол экрана, третья три четверти,...  это не дело. В джву, я согласен, программа выравнивает страницы по ширине, в пдф такого нет,  то есть надо изначально делать равные по ширине страницы (что я и делаю).
Наверх
« Последняя редакция: 27.10.2020 :: 15:13:20 от kamenkapenza »  

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #39 - 27.10.2020 :: 15:11:24
 
kamenkapenza писал(а) 27.10.2020 :: 15:05:10:
Прокручивать страницы в любой ПДФ-программе это задница! Одна страница занимает весь экран, другая пол экрана, третья три четверти,...  это не дело. В джву, я согласен, программа выравнивает страницы по ширине, в пдф такого нет

скриншот покажите.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #40 - 27.10.2020 :: 15:15:23
 
AAW писал(а) 27.10.2020 :: 15:11:24:
скриншот покажите.

Айн момент.
Беру наугад Дневник Коли Синицына
Издание И.П. Носова
Москва: Издательство «Росмэн», 2019
Скан, OCR, обработка, формат Djv, Pdf: manjakl961, 2020
Почему разные по ширине страницы?
ссылка на файлообменник
https://yadi.sk/d/xNvd57o4k4n0mw
Тут таких книг больше половины, если не три четверти. Страницы изначально не по ширине экрана и разные относительно друг друга
Алексин
https://yadi.sk/d/ahzyjLOscRNBMA
Ещё чего то
https://yadi.sk/d/Dj88s1YBW32YVg
неровные страницы.
Всё с вашего профессионального сайта.
Наверх
« Последняя редакция: 27.10.2020 :: 15:46:18 от kamenkapenza »  

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #41 - 27.10.2020 :: 15:17:28
 
и чтоб файл можно было найти и перепроверить.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Подскажите по техпроцессу
Ответ #42 - 27.10.2020 :: 17:44:37
 
Кстати, мне тоже любопытно, почему FoxitReader при просмотре "по ширине" не выравнивает страницы? По идее он должен в ширину монитора их все вписывать или нет? Мне такой косяк часто попадался. Не здесь, в разных книжках с либгена, когда нет дежавю варианта приходится пдф брать. Сейчас посмотрел Алексина - небольшой, но все же описанный эффект наблюдается с обложками.
Добавлю, что и PDF-XChangeViewer ведет себя так же. Значит дело в книге? Что-то препятствует выравниванию "по ширине"?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #43 - 27.10.2020 :: 17:56:05
 
kamenkapenza писал(а) 27.10.2020 :: 15:15:23:
Айн момент.

где скриншоты с этих трех книг ? Вы же понимаете, что внешний вид экрана зависит на 50% от вашего просмотрщика.

Добавлено:
Хочется прям поглядеть на просмотрщик, в котором ЭТИ книги выглядят согласно вашему тексту
Цитата:
Одна страница занимает весь экран, другая пол экрана, третья три четверти,...  это не дело

Наверх
« Последняя редакция: 27.10.2020 :: 18:28:53 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5935
Санкт-Петербург
Пол: male
Re: Подскажите по техпроцессу
Ответ #44 - 27.10.2020 :: 22:13:10
 
kamenkapenza писал(а) 27.10.2020 :: 15:15:23:
Айн момент.

Тут таких книг больше половины, если не три четверти. Страницы изначально не по ширине экрана и разные относительно друг друга
Алексин
https://yadi.sk/d/ahzyjLOscRNBMA

Вот в этой книге у меня в "акробате" все страницы одинаковые пр ширине! Обложки - да, они больше, но так и должно быть. Они на самом деле больше остальных страниц для твердого переплета

Масштаб же определяется просмотрщиком, и зачем страницы должны быть по ширине экрана? Я всегда делаю "По размеру страницы" и "Двойником разворот".
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
mais
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 62
Пермь
Пол: male
Re: Подскажите по техпроцессу
Ответ #45 - 27.10.2020 :: 22:15:21
 
Здравствуйте, kamenkapenza!

Вы сетуете на отсутствие подробного видео по обработке книг в ScanKromsator’e.
Чтобы хорошо изучить порядок работы в ScanKromsator’e нужно читать документацию, в видеороликах не получится изложить все тонкости и особенности работы в SK.

Есть очень хорошая компиляция материалов по работе в SK, так называемая Хрестоматия по СК версии 2.1, скачать можете здесь:
https://yadi.sk/d/NrtuRm3cxbarIw
или
https://cloud.mail.ru/public/5J24/4c49mjf1j

Если файл формата chm на вашем компьютере не откроется (в современных версиях Windows бывает необходимо предварительно этот файл разблокировать), то для его просмотра можно воспользоваться бесплатной программой Sumatra PDF.

Хрестоматия содержит много скриншотов, наглядно разъясняющих все этапы работы в SK.

...

Теперь о выравнивании страниц по ширине, как вы выражаетесь. В ScanKromsator’e оно есть, просто не так наглядно реализовано, как в ScanTailor’e.

Я не великий специалист по ScanKromsator’у, я только учусь, но рискну поделиться с вами своими знаниями.

Первый этап работы в ScanKromsator’e после загрузки файлов изображений – черновая расстановка резаков, которую программа делает автоматически. Положение резаков нужно проверить, чтобы не был отрезаны, например, номера страниц.
Аналогичную операцию необходимо выполнять и в ScanTailor’e, она выполняется в разделе программы «Полезная область».

Отличие между SК и ST в том, что в ST сразу необходимо очень точно установить границу полезной области (текстового блока или изображений), если программа этого сама не сделала из-за обилия помарок на полях, например; а в СК – нет, достаточно примерно установить резаки, не придвигая их вплотную к контуру текстового блока (хотя бывают и исключения).

ScanTailor после установки границ полезной области этим и ограничивается, далее ST обрезает страницы по границе установленной полезной области, добавляя заданные поля в ходе финальной обработки страниц (приведения к чёрно-белому виду, увеличения разрешения страниц, удаления мусора на страницах и т.д.).

В ScanKromsator’е существует двухэтапная обработка сканов
На первом этапе ScanKromsator в процессе обработки страниц (поворота и обрезки страниц, бинаризации, увеличения dpi, применения фильтров, и т.п.) запускает алгоритм выявления контуров текста на страницах внутри областей, ограниченных резаками, обрезает страницы по выявленным контурам, но при записи выходных файлов на диск пока не добавляет поля к обработанным страницам и не устанавливает одинаковые размеры страниц.
После обработки страниц программа рассчитывает размер книги и применяет заданные ранее размеры полей (их можно назначить в пикселях или в миллиметрах) и открывает окно просмотра результата (Result View), в котором показаны контуры текстовых блоков на страницах одного размера, с установленными размерами полей. Но, как я писал выше, этих полей и одинаковых размеров страниц пока нет в записанных на диск выходных файлах.
Положение границ контуров текстовых блоков можно менять точно так же как в ScanTailor’e; можно также изменять выравнивание блоков текста (например, по верхнему или по нижнему краю страницы) аналогично возможностям ScanTailor’а. Можно автоматически рассчитать новый размер книги, изменить размеры полей. Все изменения сразу будут видны в окне Result View. А в ScanTailor’е, например, если после финальной обработки сканов (операция "Вывод" в программе) задать новые размеры полей, то придётся повторно обрабатывать все файлы.
На втором этапе, когда все страницы просмотрены, контуры текстовых блоков, размеры страниц, величина полей определены, нужно выполнить так называемую финализацию, при этом выполняется окончательное добавление полей и унификация размеров всех страниц книги с записью файлов на диск.

Ниже примеры:

Автоматически расстановленные в SK резаки:

...

Обработанные страницы с установленными программой контурами текстовых блоков:

...

Далее на левой странице я исправил положение левой границы контура, придвинул её к тексту, отсёк мусор. Мусор потом нужно будет удалять вручную, изменение границы контура влияет только на положение содержимого контура на странице в зависимости от того, каким оно задано (выравнивание по центру, по левому краю и т.д.):

...

В данном случае до начала обработки положение резаков можно вручную скорректировать, сразу отсекая мусор:

...

Тогда положение границы контура текстового блока можно не менять (и мусор не попал внутрь текстового блока):

...

Если на страницах книги нет крупного мусора, ScanKromsator очень точно определяет контуры текстовых блоков, в отличие от ScanTailor’а, который какую-нибудь крупную точку на полях страницы практически всегда воспринимает как часть текста.

После проверки всех страниц нужно выполнить финализацию, в результате получаем одинаковые размеры страниц всей книги:

...

И ещё добавлю – в ScanKromsator’e процесс очистки страниц от мусора реализован на порядок лучше, чем в ScanTailor’e.
В ScanKromsator’e есть инструмент «ластик», причем разных цветов: и чёрного, и белого, и т.н. магического цвета; есть возможность удалить ненужный элемент на странице («галочку», пятно, подчеркивание, не задевающее буквы и т.п.) одним кликом мышки (комбинация Ctrl + Shift + клик левой кнопкой мышки), также есть возможность нажатием одной кнопки или кликом мышки по пиктограмме удалить на странице весь мусор («спеклы» в терминах SK), размер которого меньше заданного в пикселях размера. Например, при разрешении выходных файлов 600 dpi, размер точек в предложениях обычно бывает больше 10 пикселей, то есть я могу задать размер удаляемого мусора на странице 10 пикселей, и автоматически почистить страницы от мелкого мусора, не опасаясь, что будут удалены элементы текста. Есть возможность достаточно ярко подсветить спеклы менее заданного в настройках размера для выборочного удаления мусора внутри блоков текста.

В общем, kamenkapenza, советую вам присмотреться к программе ScanKromsator. Читайте документацию, не дожидаясь появления устраивающих вас видеороликов, задавайте вопросы на форумах.

В конце концов вы же и скачиваете книги гигабайтами, и обрабатываете сканы книг, делаете их электронные версии, и, я уверен, читаете книги. Вы же читатель! Так читайте документацию!

А потом и свои видеоуроки по ScanKromsator’у запишете
Цитата:
в прямом эфире, без пауз

Подмигивание
Наверх
« Последняя редакция: 27.10.2020 :: 22:25:17 от mais »  
 
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #46 - 28.10.2020 :: 14:42:12
 
sad369 писал(а) 27.10.2020 :: 17:44:37:
Кстати, мне тоже любопытно, почему FoxitReader при просмотре "по ширине" не выравнивает страницы? По идее он должен в ширину монитора их все вписывать или нет? Мне такой косяк часто попадался. Не здесь, в разных книжках с либгена, когда нет дежавю варианта приходится пдф брать. Сейчас посмотрел Алексина - небольшой, но все же описанный эффект наблюдается с обложками.
Добавлю, что и PDF-XChangeViewer ведет себя так же. Значит дело в книге? Что-то препятствует выравниванию "по ширине"?

Ни Фокс ридер ни Акробат ридер, ни Акробат про не будет выравнивать ваши  косяки.  Надо делать ровные страницы изначально!!! А вы только заметили, что делали всё не так?!
Наверх
« Последняя редакция: 28.10.2020 :: 14:52:52 от kamenkapenza »  

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #47 - 28.10.2020 :: 14:47:43
 
mais писал(а) 27.10.2020 :: 22:15:21:
Вы сетуете на отсутствие подробного видео по обработке книг в ScanKromsator’e


Какая хрестоматия? Вы это о чем???
Я сетую и требую, чтобы было полное видео по обработке конкретной книги в Сканкромсаторе. Я по Тейлору сделал 2!!! видео. Вам то, бездельникам, слабо что ли??? Одни только слова!!!! Мне то вы чего пеняете? Найдите время, включите при обработке какой то книги Фаст Сторе Каптуре, я посмотрю и оценю ваше умение. Народу надо разжевывать. Слабо видео записать? Или вы все тут к пустословию привыкли?  Будьте вы людьми, опуститесь к народу, как Данко, не всё своё сердце, хотя бы часть его отдайте во благо.
Наверх
« Последняя редакция: 28.10.2020 :: 14:54:44 от kamenkapenza »  

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #48 - 28.10.2020 :: 15:19:26
 
оффтоп
kamenkapenza писал(а) 28.10.2020 :: 14:47:43:
бездельникам

Удивительно много желающих сесть на шею тем, кто и так пашет. Это во все времена так было.
Тебе, "мил человек", надо? Вот ты и сделай эти видео. А остальным и того что есть хватает.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #49 - 28.10.2020 :: 17:07:04
 
AAW писал(а) 28.10.2020 :: 15:19:26:
Удивительно много желающих сесть на шею тем, кто и так пашет. Это во все времена так было.
Тебе, "мил человек", надо? Вот ты и сделай эти видео. А остальным и того что есть хватает.

Получается, что вы как сурки тут   Я ещё раз повторяю: слабо??? Бездельники!!! Вы то что для народа сделали, чему научили? Сидите здесь в своей норе без толку и будете стрелки переводить, кто то должен сделать. Я так рассуждаю, как в "Судьбе барабанщика", (спеть вам ту песню или сами фильм посмотрите: "Если не я то кто же, кто же если не я????" )  По Скан Тейлору я сделал, всё народу разжевал по-простецки, а вы в своей конторе сидите, какой от вас прок? Или вы все такие меркантильные все, всё мерите таньгой?  Кто из вас рискнет в Кромсаторе книгу создать и показать полный цикл? Ума не хватает или стыдно, если народ напишет нелестный комментарий? Вы уж как то это переживите, на этом жизнь не кончается!
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
kamenkapenza
Активист
***
Вне Форума


ВСЕМ ПИРИВЕТ!!!

Сообщений: 353
Череповец и Каменка Пензенская
Пол: male
Re: Подскажите по техпроцессу
Ответ #50 - 28.10.2020 :: 17:30:16
 
mais писал(а) 27.10.2020 :: 22:15:21:
Первый этап работы в ScanKromsator’e после загрузки файлов изображений – черновая расстановка резаков, которую программа делает автоматически. Положение резаков нужно проверить, чтобы не был отрезаны, например, номера страниц.
Аналогичную операцию необходимо выполнять и в ScanTailor’e, она выполняется в разделе программы «Полезная область».

Отличие между SК и ST в том, что в ST сразу необходимо очень точно установить границу полезной области (текстового блока или изображений), если программа этого сама не сделала из-за обилия помарок на полях, например; а в СК – нет, достаточно примерно установить резаки, не придвигая их вплотную к контуру текстового блока (хотя бывают и исключения).

ScanTailor после установки границ полезной области этим и ограничивается, далее ST обрезает страницы по границе установленной полезной области, добавляя заданные поля в ходе финальной обработки страниц (приведения к чёрно-белому виду, увеличения разрешения страниц, удаления мусора на страницах и т.д.).

Изначально непонятно, зачем надо было создавать 4 резака, тем более, что они, эти резаки расставляются шаляй-валяй, надо проверять каждую страницу. В Скантейлоре есть раздел "Полезная область" заместо этих 4-х, на расстановку которых надо 2 часа, в Тейлоре программа практически без ошибок находит полезную область, максимум на устранение недочетов уходит 3 минуты, обзор установленной области находится сбоку, сразу видно 10 разрезов одновременно, в Кромсаторе только одна страница крупным планом, надо каждую страницу , это вообще задница, весь переплюёшься, потому что отнимает часы. Каждую страницу надо проверять, как резаки стоят. Это же издевательство!!!
Наверх
 

Очень люблю советскую периодику и советские книги, в том числе энциклопедии, справочники, книжные серии, собрания сочинений и всё, всё, всё...
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #51 - 28.10.2020 :: 17:55:57
 
kamenkapenza писал(а) 28.10.2020 :: 17:30:16:
Это же издевательство!!!

Издевательство - это то, что ты делаешь из сканов Очень довольный   
Над авторами книг издевательство.

Подмигивание
sad369, попкорн не кончился?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #52 - 28.10.2020 :: 18:04:39
 
А теперь серьезно.
bolega, а каким способом можно выровнять поля в pdf Носова, который был выше упомянут? Чтоб пооптимальнее сработать.
Я сделал экспорт из пдф попплеровскими утилитами. Результирующие джипеги имеют разное разрешение, 300/600 и, самое прикольное, что страницы в 300 не имеют записи о разрешении. "1dpi" СК показывает. Не знаю, как manjak1961 этого добился.
В итоге при загрузке джипегов в СК я встал перед проблемой как страницы в 300дпи оставить такими же. Не удваивать. Вероятно, надо использовать вторые размеры? Как их, страницы в 300, отбраковать? А учитывая, что большинство страниц имеет рисунки в край... У меня что-то голова пошла кругом от задачки. С виду банальность: взять и нарастить поля под максимальный имеющийся габарит, ну, исключив обложки. А на практике какой-то квест.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Подскажите по техпроцессу
Ответ #53 - 28.10.2020 :: 18:59:28
 
AAW
Попкорна полно! Улыбка Опять же и польза есть. Вот хотя бы лонгрид от mais. Улыбка

Dmitry7, AAW
Вопрос мой касался не столько того, как исправить файл Носова, а того, почему просмотрщики пдф не выполняют простую функцию выравнивания страниц при просмотре "по ширине". Чем обложка отличается от других страниц, ведь ничем для программы просмотра? Вот для WinDjvu не имеет значения, что за книгу он показывает. Просто вписывает все в размер экрана. И не важно, хорошо это или можно смотреть в другом режиме. Просто пользователь хочет так, а просмотрщик делает иначе. Почему?

И пример Носова еще вполне щадящий. Мне попадались файлы, где
Цитата:
Одна страница занимает весь экран, другая пол экрана, третья три четверти,...  это не дело
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #54 - 28.10.2020 :: 19:07:41
 
sad369 писал(а) 28.10.2020 :: 18:59:28:
Почему?

у меня есть абстрактное предположение, что в просмотрщиках применена различная идеология.
В дежавю по-честному растягивается каждая страничка сама по себе. Иногда сильно бесит листать отдельно взятый корешок Улыбка растянутый на семь-восемь экранов. И ещё в пятнах от артефактов сжатия BG-слоя.
А в пдф танцуют от физических размеров (метров). Увязывают весь документ в цельный объект. Думаю, это обосновано, ведь пдф и был задуман как точная копия бумажного документа. То есть идеологически неверно было бы показывать две соседних страницы в разном масштабе. И кнопка "по ширине" в пдф-просмотрщике это "по ширине документа".
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Подскажите по техпроцессу
Ответ #55 - 28.10.2020 :: 19:23:30
 
Цитата:
кнопка "по ширине" в пдф-просмотрщике это "по ширине документа".

Да, это можно принять за рабочую гипотезу. Если найду пример сильно скачущих страниц, покажу его.
Наверх
 
 
IP записан
 
savi_22
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Re: Подскажите по техпроцессу
Ответ #56 - 28.10.2020 :: 23:16:58
 
Товарищ kamenkapenza, а Вам не кажется, что Вы много на себя берете в плане поисков изъянов у обработчиков этого форума? Люди тратят время на поиски книг, сканируют их в свободное от работы время и дают людям возможность их читать. Что же делаете Вы? Ваши обвинения упираются лишь в ширину полей, отсутствие роликов по обработке (хотя их вроде достаточно), и "лентяйстве" этих обработчиков (где-то статистика есть, сколько книг выложено на форуме, и 50 % из них - это обработка "этих лентяев", не говоря уже о том, что часть книг просто труднодоставаемы, порою за деньги) но ведь и Ваша обработка полна изъянов, да и скантейлором Вы пользуетесь не в лучшем виде.
Мне кажется, всегда есть к чему стремиться, но упрекать людей в их работе, когда сами не научились обрабатывать - это как минимум странно.
И да, по поводу книг Абсурдмэна: можно сканировать много книг, но если их почти никто не обрабатывает, может имеет смысл задуматься, а те ли книги сканируются? (ведь сам Абсурдмэн обрабатывать пока не научился). Ведь по большому счету это Ваши (kamenkapenza и Абсурдмэна) хлопоты, что один впустую тратит время, а второй берет на себя "ношу" (с Ваших слов) обрабатывать эти книги, потому что больше некому. Но по Вашим словам, как мне кажется, Вы упорно эти хлопоты взваливаете на обработчиков этого форума и ищите причины их "бездействия". Мне, как обработчику немногочисленных сканов (не только у Абсурдмена), хотелось, чтобы Вы, kamenkapenza, не занимались здесь придирками, а хоть немного прислушивались бы к чужому мнению.
Наверх
 
 
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1129
Re: Подскажите по техпроцессу
Ответ #57 - 28.10.2020 :: 23:29:29
 
AAW писал(а) 28.10.2020 :: 18:04:39:
А теперь серьезно.
bolega, а каким способом можно выровнять поля в pdf Носова, который был выше упомянут? Чтоб пооптимальнее сработать.
Я сделал экспорт из пдф попплеровскими утилитами. Результирующие джипеги имеют разное разрешение, 300/600 и, самое прикольное, что страницы в 300 не имеют записи о разрешении. "1dpi" СК показывает. Не знаю, как manjak1961 этого добился.
В итоге при загрузке джипегов в СК я встал перед проблемой как страницы в 300дпи оставить такими же. Не удваивать. Вероятно, надо использовать вторые размеры? Как их, страницы в 300, отбраковать? А учитывая, что большинство страниц имеет рисунки в край... У меня что-то голова пошла кругом от задачки. С виду банальность: взять и нарастить поля под максимальный имеющийся габарит, ну, исключив обложки. А на практике какой-то квест.

Размеры при просмотре пляшут из-за разного Dpi страниц до сжатия в PDF.
Может помочь перед кодированием если принудительно переписать Dpi для всех страниц. Дело минутное. В то-же FastStone Image Viewer выделить все, F3, в настройках указать новый Dpi. Подождать окончания.
Все.
Запустить на просмотр PDF в двухстраничном режиме. Если есть такой дефект - сразу видно.
Встречается и при кодировании в Djvu.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5569
Екатеринбург
Пол: male
Re: Подскажите по техпроцессу
Ответ #58 - 29.10.2020 :: 06:05:52
 
Вы какую-то другую книгу импортировали. Я говорю вот про эту:
Носов Н.Н. - Дневник Коли Синицына (Книжка из-под парты) - 2019.pdf
При импорте pdf в СК страницы 53-57 имеют такие габариты:
1821х2480 300дпи
3741х4959 600дпи
то же
1776х2483 300дпи
1772х2480 300дпи
(действительно, никаких 1dpi нет. к попплеру)
Мой вопрос в следующем: как провести драфт-обработку, обработку и финализацию, сохранив в выходном pdf два размера этих страниц - для 300дпи 1871х2483 и для 600дпи 3742х4966. То есть соблюсти кратность пикселей, одинаковость вида при масштабе 100%, и совпадение физических размеров в пунктах pdf. Сложность есть в установке параметров на закладке Files и на закладке Book. Это как минимум. Если в пакете будет довольно много различающихся по дпи сканов, то как разделить сканы на две части по дпи, чтобы для 300дпи были одни поля/габариты, для 600дпи другие поля/габариты. Мне неочевиден сам процесс, последовательность.

Причина, почему я это спрашиваю: я ради тренировки пару недель как переобрабатываю книгу Зубенко из серии Профтехобразование. Из Сети взял чб версию и решил попробовать, стоит ли овчинка выделки, не с нуля свои сканы делать, а допилить имеющееся. У книги не было обложек. И дпи книги в дежавю указан 300дпи, а фактически если рассчитать, зная высоту книги и число реальных пикселей, то он 400дпи. Я импортировал джву, добавил свои сканы обложек в 600дпи, проставил галку "входной дпи принудительно 400". Выходной размер - Original. Но на выходе для своих 600-дпишных сканов обложек получил внутри обработанного файла запись "400дпи", при неизменном числе пикселей. То есть в джву-просмотрщике обложки выглядят в полтора раза крупнее чб страниц. Откуда мой интерес к местной теме разнобоя страниц на экране и появился Улыбка

...

В субзакладке page\special я поставил галки DPI=Original, но это не помогло.


оффтоп
Поработав с сетевой книжкой, укрепил своё убеждение, что это зряшная или попросту неэффективная работа. С виду книга выглядела неплохо, а когда дошло дело до пристального разглядывания с вычисткой мусора - и "инь" многочисленный обнаружил, и утраты. Исправлять инь глифами - то ещё удовольствие. Долго. Так что присоединюсь к словам bolega для pohorsky - на кой чёрт переобрабатывать плохие сетевые книги, если у меня и так хороших сканов вагон.
Наверх
« Последняя редакция: 29.10.2020 :: 06:18:06 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
xyz
Гуру
****
Вне Форума


Всем привет!

Сообщений: 899
Re: Подскажите по техпроцессу
Ответ #59 - 30.10.2020 :: 11:00:32
 
1. Хочу заметить, что в книжке Носова есть рисунки, захватывающие развороты, и оптимизировать ее надо разворотами.
Боюсь, что не раздобыв оригинал книжки, остается непонятным, были или нет у маньяка  утраты иллюстраций в край,
стоит ли вообще заниматься оптимизацией книжки.
К тому же её, кстати, нужно расшить, чтобы нормально отсканировать серединки разворотов.
(Такие утраты серединок там точно есть. Иногда типография такое сотворяет, но вряд ли в этом случае.).


2. У маньяка выложен также джву, где все страницы 600 дпи и страницы выровнены по единой высоте - 4959 пикс.

Что это означает ?
Подгонять страницы нужно только по ширине.
Проблему тут составляют картинки на весь лист с разной шириной. (Это как раз те, что в пдф-ке имеют разрешение 600.)
Я не вижу никакой в них ценности. Самые широкие можно чуть-чуть с боков и подрезать, самые маленькие масштабировать (растянуть), это все решается в индивидуальном порядке. Если у страницы с рисунком белый фон - нарастить поля.
Получив правильную общую ширину, можно переходить к текстовым страницам.

Текстовые страницы. Если бы они скакали по высоте, то надо было бы делать макетирование, и проверять, что происходит с иллюстрациями в край. Но раз они по высоте уже выровнены, то можно просто делать прижимы влево-вправо-центр, руководствуясь тем, с какой стороны расположены иллюстрации в край. Да, текстовый блок будет чуть-чуть смещаться, но он и так смещается.
Делать это можно как в СТ (СТУ, СТА - модификациях с отключением автораспознавания блока контента), так и в СК.

Только делать это большого смысла не имеет. Почему ? См. пункт 1.


3. Иметь тут микс из 300 и 600 дпи совершенно незачем. Или все 300, или все 600. Надо в джву - все 600, в пдф - все 300.





4. У Носова также какая-то фигня с цветом обложки. Передняя зеленоватая, задняя- синеватая. А должны быть одинаково. Обратите внимание на различия в корешке.


5. Я кстати, поэтому не люблю обложки с корешками - они задают просмотрщику неправильную ширину, а потом саму книжку читать неудобно. (Это для некоторых планшетов характерно или было характерно).


6. Я уже высказывался на тему, что агрессивный перфекционизм некоторых форумчан вступает в противоречие с политикой затаскивания всякой фигни в библиотеку. Вот книжка маньяка не прошла через форум, ее никто своевременно и не закритиковал.


7. С одной стороны хорошо, что каменкапенца указал на книжку, подлежащую исправлению.
С другой - какая-то странная логика: "вот другие не очень хорошо сделали, значит, мне можно какашечные книжки выкладывать".

Наверх
« Последняя редакция: 30.10.2020 :: 14:10:14 от xyz »  
 
IP записан
 
Страниц: 1 2 3 4 
Послать Тему Печать