в связи с постом
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1110646937/1205#1205Вероятно, будет полезно.
Когда я смотрю на эл.книгу, то оцениваю:
I. Аутентичность. То есть книгу можно повторить в бумаге и она будет слабо отличаться от оригинала.
1. полнота скана (страницы, обложки включая форзацы, заднюю обложку и корешок, вклейки, суперобложка, дискеты и CDROM, отдельные приложения/аннотации/листы опечаток...)
2. расположение (порядок) страниц. Его хотя бы можно восстановить, или нет.
3. сохранение форматирования по листу: размер полей, соответствие (постраничное, так как бывает разная центровка в разных местах, и это заметно) оригинальному типу центровки, включая различие для левых и правых страниц. Сопряжение центровки при просмотре в разворот (например, края блока текста совпадают или нет)
4. сохранение вида (контуров) шрифта. Самый спорный момент, мало кто увеличивает масштаб просмотра до 400 и 800%. А глаз на плохом шрифте устаёт.
5. отсутствие артефактов обработки и сжатия (эффект инь, пропажа мелких точек из-за despecle, квадратики jpeg и т.п.)
6. сохранение смысловой разборчивости информации на рисунках. Пример: когда ЧБ-чертёж установки кодируют обычным профилем, в фон может уйти важная особенность конструкции. Вроде это не артефакт, вроде что-то угадывается, но без специальных знаний это "что-то" читателю недоступно
7. сохранение идентичности рисунков, фотографий и репродукций художественных произведений при просмотре и печати в 100% масштабе. Примеры: сильный descreen картин, необоснованная постеризация. Как на артефакт не укажешь, а "красота" утрачена
8. технологические особенности для удобства распечатки: наличие пустых обороток для вклеек, страницы с вертикальной ориентацией строк должны остаться неповёрнутыми.
9. сохранение идентичной цветности шрифта и рисунков. Примеры: пропажа цвета у буквиц и колонтитулов, чрезмерная контрастность, иногда до забеления светлых деталей.
10. Нет огрехов сканирования. Это цветные полоски от пыли, царапины на стекле сканера, обрезанные края из-за большого размера оригинала
11. Общая красота: невычищеный фон страницы на рисунках, просвечивающие с оборотки буквы.
11а.Применённые технологии соответствуют смыслу информации. Пример: если рисунок в старой книге отражает реальный трёхмерный мир, и содержит большие однородные площадки, чаще всего не надо его бинаризовать, он становится "плоским", неестественным. Особенно в детских книгах это неприятно видеть. В бумаге такие залитые площадки не совсем однородны.
12. не вставлено то, чего не было
И не изменено то, что есть. Тайком, естественно. Если есть допинформация с пометкой что это именно допинформация - никаких проблем.
13. чрезмерный, то есть заметный, мусор. Особомелкие мусоринки глазу не мешают, а вот кляксочки в полбуквы внутри строк - очень мешают.
II. Электронные "плюшки"
1. OCR, то есть слой распознанного, но не вычитанного текста
2. вычитка
3. вставка оглавления
4. вставка предметного указателя и прочих гиперссылок
5. полноценное имя файла (прелестные имена: "67844.zip" или "book.djvu")
6. размер файла, т.е. критерий "килобайт/страница". Есть некоторые типичные значения для страниц с разным содержанием. Чистый текст обычной книги среднего формата - 8-10кб, большого словаря 40-70кб, фотография в лист 140-480кб, и так далее. Для старых книг всё похуже, для новых получше. Больше смотрю на общий размер, постранично не подсчитываю.
6а.Для файлов "обычных" книг более 50Мб, и для худ.альбомов более 300Мб - есть ли вторая, более компактная версия. Ибо далеко не все живут на безлимитном 100мб-канале. Отличия в размере "классические", более трёх раз.
7. эффективность применения технологии. Можно паковать сканы в контейнеры, и получать адекватные книги, только размер будет в гигабайт, и слой OCR не вставить. А малоцвет должен быть сжат как малоцвет, его существование и сжатие в технологии специально предусмотрено.
8. корректность кодировок текстового слоя, наличие в нём спецсимволов мягкого переноса и т.п.
9. отмеченные внутренней разметкой иллюстрации (для поиска и экспорта)
Если вспомню что-то, дополню.
Жаль, я долго ломал голову, но так и не представляю, как подобную оценку по-критериально засунуть вовнутрь файла книги. Хоть Леона Боту проси стандарт djvu подправить
Любой сайт с такими оценками требует группы оценщиков и согласных с ней владельцев сайта.
добавлено:
насчёт "засунуть вовнутрь файла":
может, после последней странички книги добавлять скан (и распознавание) каталожной карточки и ниже критерии оценки? А id странички особым образом формировать, чтоб её можно было опознать.