OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Классификация работ (Прочитано 11901 раз)
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1080
Классификация работ
14.02.2006 :: 19:46:57
 
Как квалифицировать работы? Необходимо договорится хотя бы об основных терминах.
Скан - электронная копия страницы/издания. Сырой(необработанный) и ....(подготовленный для последующей обработки)?
OCR - распознанный и/или вычитанный текст. Текстовая копия с/без форматирования. Форматирование повторяет оформление текста или страницы.
PDF/DJVU - копия издания в постраничной форме. С чисто графическим изображением страниц возможным внедренным текстовым слоем с возможностью поиска, возможностью перехода по ссылкам и т. д.
Например, диски "Триады" книги в текстовом виде, но не вычитанные совсем. Серия "шпаргалки" на диске PDF-книги скорее всего после автоматического распознавания и конвертации в PDF с такими ошибками. (В комплекте идут постраничные GIF файлы - для тех, кто сомневается в прочитанном)
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Классификация работ
Ответ #1 - 14.02.2006 :: 22:38:28
 
Скан - просто скан.
OCR - работа со сканом (разбиение сблоков и пр.) и распознавание (машинное). Скан+OCR = OCR, если одним человеком делается.
Правка - человек правит в ФР или Ворде
Спелчек - человек читает готовый текст и ловит мелочи.

У нас так.


ПДФ - может очень разные вещи означать. Зачастую это именно OCR без правки.
Да и DjVu тоже разый бывает - хотя здесь можно просто балльной системой обойтись.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Классификация работ
Ответ #2 - 30.11.2016 :: 09:16:16
 
в связи с постом http://publ.lib.ru/cgi/forum/YaBB.pl?num=1110646937/1205#1205
Вероятно, будет полезно.

Когда я смотрю на эл.книгу, то оцениваю:
I. Аутентичность. То есть книгу можно повторить в бумаге и она будет слабо отличаться от оригинала.

1. полнота скана (страницы, обложки включая форзацы, заднюю обложку и корешок, вклейки, суперобложка, дискеты и CDROM, отдельные приложения/аннотации/листы опечаток...)
2. расположение (порядок) страниц. Его хотя бы можно восстановить, или нет.
3. сохранение форматирования по листу: размер полей, соответствие (постраничное, так как бывает разная центровка в разных местах, и это заметно) оригинальному типу центровки, включая различие для левых и правых страниц. Сопряжение центровки при просмотре в разворот (например, края блока текста совпадают или нет)
4. сохранение вида (контуров) шрифта. Самый спорный момент, мало кто увеличивает масштаб просмотра до 400 и 800%. А глаз на плохом шрифте устаёт.
5. отсутствие артефактов обработки и сжатия (эффект инь, пропажа мелких точек из-за despecle, квадратики jpeg и т.п.)
6. сохранение смысловой разборчивости информации на рисунках. Пример: когда ЧБ-чертёж установки кодируют обычным профилем, в фон может уйти важная особенность конструкции. Вроде это не артефакт, вроде что-то угадывается, но без специальных знаний это "что-то" читателю недоступно
7. сохранение идентичности рисунков, фотографий и репродукций художественных произведений при просмотре и печати в 100% масштабе. Примеры: сильный descreen картин, необоснованная постеризация. Как на артефакт не укажешь, а "красота" утрачена
8. технологические особенности для удобства распечатки: наличие пустых обороток для вклеек, страницы с вертикальной ориентацией строк должны остаться неповёрнутыми.
9. сохранение идентичной цветности шрифта и рисунков. Примеры: пропажа цвета у буквиц и колонтитулов, чрезмерная контрастность, иногда до забеления светлых деталей.
10. Нет огрехов сканирования. Это цветные полоски от пыли, царапины на стекле сканера, обрезанные края из-за большого размера оригинала
11. Общая красота: невычищеный фон страницы на рисунках, просвечивающие с оборотки буквы.
11а.Применённые технологии соответствуют смыслу информации. Пример: если рисунок в старой книге отражает реальный трёхмерный мир, и содержит большие однородные площадки, чаще всего не надо его бинаризовать, он становится "плоским", неестественным. Особенно в детских книгах это неприятно видеть. В бумаге такие залитые площадки не совсем однородны.
12. не вставлено то, чего не было Улыбка И не изменено то, что есть. Тайком, естественно. Если есть допинформация с пометкой что это именно допинформация - никаких проблем.
13. чрезмерный, то есть заметный, мусор. Особомелкие мусоринки глазу не мешают, а вот кляксочки в полбуквы внутри строк - очень мешают.

II. Электронные "плюшки"

1. OCR, то есть слой распознанного, но не вычитанного текста
2. вычитка
3. вставка оглавления
4. вставка предметного указателя и прочих гиперссылок
5. полноценное имя файла (прелестные имена: "67844.zip" или "book.djvu")
6. размер файла, т.е. критерий "килобайт/страница". Есть некоторые типичные значения для страниц с разным содержанием. Чистый текст обычной книги среднего формата - 8-10кб, большого словаря 40-70кб, фотография в лист 140-480кб, и так далее. Для старых книг всё похуже, для новых получше. Больше смотрю на общий размер, постранично не подсчитываю.
6а.Для файлов "обычных" книг более 50Мб, и для худ.альбомов более 300Мб - есть ли вторая, более компактная версия. Ибо далеко не все живут на безлимитном 100мб-канале. Отличия в размере "классические", более трёх раз.
7. эффективность применения технологии. Можно паковать сканы в контейнеры, и получать адекватные книги, только размер будет в гигабайт, и слой OCR не вставить. А малоцвет должен быть сжат как малоцвет, его существование и сжатие в технологии специально предусмотрено.
8. корректность кодировок текстового слоя, наличие в нём спецсимволов мягкого переноса и т.п.
9. отмеченные внутренней разметкой иллюстрации (для поиска и экспорта)

Если вспомню что-то, дополню.

Жаль, я долго ломал голову, но так и не представляю, как подобную оценку по-критериально засунуть вовнутрь файла книги. Хоть Леона Боту проси стандарт djvu подправить Улыбка
Любой сайт с такими оценками требует группы оценщиков и согласных с ней владельцев сайта.

добавлено:
насчёт "засунуть вовнутрь файла":
может, после последней странички книги добавлять скан (и распознавание) каталожной карточки и ниже критерии оценки? А id странички особым образом формировать, чтоб её можно было опознать.
Наверх
« Последняя редакция: 30.11.2016 :: 13:25:09 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
densen2002
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 84
Odessa
Пол: male
Re: Классификация работ
Ответ #3 - 30.11.2016 :: 10:23:08
 
Почти всем критериям отвечает сжатие сканов в PDF (Jbig/JPEG2000), профиль Maximum (для перфекционистов - Lossless).

Там и просвечивающий текст с обратной стороны, и аутентичность, и проч.

В 100-200 мегабайт можно вписаться практически всегда.

Предварительно, конечно, обрезать поля.
Ну и сырые сканы должны быть 400-600 dpi

PS. Идеальный вариант - это книги, сделанные  ув. Bolega. Это просто образец книгоделания.

Но такой результат получается буквально у нескольких человек.

Наверх
« Последняя редакция: 30.11.2016 :: 12:13:54 от densen2002 »  
densen2002  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Классификация работ
Ответ #4 - 03.12.2016 :: 17:43:50
 
Да, критерии AAW близки к идеалу. Даже не придумал, чего еще пожелать. Правда небольшая проблемка: сколько оцифровщиков смогут им соответствовать? И еще такой момент. Если мы указываем некий образец для подражания, это нормально. Не надо далеко ходить, на этом сайте таких образцовых книг немало. Но вот попытка ввести некий стандарт, а тем паче создавать "группу оценщиков" приведет лишь к тому, что кроме этих оценщиков новые книги некому будет делать. Не надо этого. И без того есть гигантский лаг между объемом неотсканированного и количеством людей, готовых этой деятельностью заниматься. Не надо ставить планку на 3 метра и просить прыгнуть без шеста.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Классификация работ
Ответ #5 - 03.12.2016 :: 18:19:29
 
sad369 писал(а) 03.12.2016 :: 17:43:50:
Правда небольшая проблемка: сколько оцифровщиков смогут им соответствовать?

Смогут - абсолютно все. Мозги у нас устроены одинаково, у всех 7млрд. Тут нужна не генетика физических способностей. А вот _захотят_ - это вопрос, сколько... Улыбка  Чтобы захотеть - нужна воля, а её ни у кого нет. Никто и не знает, что это такое. Я вот просто исходно хотел собрать МРБ Улыбка Волю тоже не подключал. Не умею.

sad369 писал(а) 03.12.2016 :: 17:43:50:
Не надо ставить планку на 3 метра и просить прыгнуть без шеста

Вспомнилось. Есть такой неплохой фильм "Мирный воин". Там именно такая сценка, герой Сократ прыгает метра на четыре вверх без разбега. Фильм посвящён преодолению внутренних планок человека.

Надо или не надо ставить планку... я убеждён, что надо. Мы же как-то выбираем себе людей "ближнего круга". По действиям этих людей и выбираем, так что установленная планка по книгам ничего принципиально не меняет. Раз есть взаимоотношения, они автоматически строятся по каким-то критериям. Иначе просто хаос, как произошло с Интернетом в целом. Большая неструктурированная помойка получилась, за 25 лет развития. Я считаю, именно из-за полного отсутствия каких-либо критериев взаимодействия. Энтропия замкнутых систем растёт, это закон.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Классификация работ
Ответ #6 - 03.12.2016 :: 21:00:02
 
Очень довольный вспомнил, что нужно добавить: отсутствие watermark и прочих логотипов, наложенных на текст и/или просто назойливых. Приятно, если попадается известный значок с всплывающей подсказкой, как у Benoni, или штампик Made with ScanKromsator. Вспоминаешь человека и всё то, что он сделал, а не только данную книгу. Но чтению-то подобные вставки не должны мешать. А их, бывает, в каждом колонтитуле налепят.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5891
Санкт-Петербург
Пол: male
Re: Классификация работ
Ответ #7 - 04.12.2016 :: 12:31:35
 
AAW писал(а) 03.12.2016 :: 18:19:29:
Я вот просто исходно хотел собрать МРБ Улыбка .


самое смешное, то я тоже начал книгоделание именно с МРБ, хотел собрать полную коллекцию
(что-то в этой серии такое есть!)

потом захотелось НВЖНиТ, НПС и т.д. Улыбка


Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Классификация работ
Ответ #8 - 04.12.2016 :: 20:08:27
 
Кстати, интересная тема. Можно повспоминать как все начиналось. Очень довольный Моя первая книжка была  и не книжкой вовсе, а отдельными рассказами Алексина, которых на тот момент не было в библиотеке А.Мошкова. Потом за Лескова и Мельникова-Печерского взялся и пошло-поехало. А вот первое, что я Вадиму прислал, оказался 4-томник Сельмы Лагерлёф. Кстати, не помешало бы его пересканить, чтобы дежавю сделать. Вот и идея родилась, пока это сообщение писал. Очень довольный
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male
Re: Классификация работ
Ответ #9 - 04.12.2016 :: 20:17:47
 
sad369 писал(а) 04.12.2016 :: 20:08:27:
4-томник Сельмы Лагерлёф

хм. а ведь pohorsky брал у меня красочную книжку большого формата, и сделал, если ничего не путаю. Не вижу на страничке Лагерлёф.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 945
Re: Классификация работ
Ответ #10 - 04.12.2016 :: 20:22:54
 
Как не видите? Лежит себе и даже год указан (2005).
http://publ.lib.ru/ARCHIVES/L/LAGERLEF_Sel'ma_Ottiliya_Luvisa/_Lagerlef_S.O.L..h...
Я тогда исключительно доки делал.
Сорри, перепутал. Вы же о большой красочной книге. Действительно ее нет.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать