Это по поводу переделки сторонних сканов (чистка, ортогонизация, деление на страницы, бинаризация,
перетасовка - вынос вкладок и вклеек в конец с целью сохранения соответствия с оглавлением,
исправление опечаток, текстовый слой и т.д.).
Если скан безымянный и происхождение его никаким образом установить не удается, все просто:
пишу Scan by Unknown. Reconstruction by я, и все. Вадим по поводу таких переделок дал косвенное
разрешение помещать их в раздел "Книги для библиотек".
Вадим писал(а) 29.12.2005 :: 22:44:33:Этично, если соблюдаются все копирайты! Если указано кто изначально создал файл (или хотябы откуда он взят, если нет более точной информации), то претензий со стороны изначального оцифровщика быть не должно...
Но когда скан именной - все не совсем просто.
Дело в том, что переделать, полностью сохранив сделанное до, практически невозможно. Часто и
переделывать-то приходится потому, что не устраивает именно КАК сделано. Да и в простейших случаях
дообработки (дополнительная чистка, ортогонизация, "на разворот - постранично") часто бывает
трудно сохранить изначальный формат. Например, Роман Ефимов метит каждую страницу своих
сканов (меленько по верхнему краю), а при обработке сохранить это довольно трудно. Не нравятся мне,
скажем, и выделения цветом гиперссылок (или размеры выделений). Как быть в таком случае? Можно ли
выкладывать, не рискуя задеть самолюбие автора скана? Не каждый, ведь, скажет, что мол, не по душе
мне это (что вполне понятно по всем статьям), а будет неприятно. Не хочется, чтоб было неприятно.
Другой вопрос - идентификация OCR-щика. Большинство крупных оцифровщиков метят свои сканы (Pirat,
ScanKromsator или тот же Роман Ефимов, например), однако, многие, даже очень крупные (Zmiy, например,
да и сам Вадим) никак свои сканы не помечают. Почему? Если кому мешает - убрать, ведь, легко, если
на белом и не водяными знаками через всю страницу. Если файлы приходят не из первоначального места выложения или после заимствования без ссылки, автор скана теряется. Так, те же сканы от АЧ, составляющие значительную часть технического контента Библиотеки, ранее числились у меня как by Unknown. Выложенный с косвенного разрешения Вадима ("... локомобиля" - намеренно бескопирайтная книга, представляющая исключительно исторический интерес) от АЧ был обнаружен мной у Вадима уже после того, как практически был переделан. Сканы от АЧ с точки зрения доработки наиболее мне интересны и уж на очереди несколько десятков книг. Чего и хотелось бы, чтоб если он бывает на форуме, сказал свое слово (многие разносторонние натуры выступают в разных амплуа под разными никами; так один из виднейших участников этого форума как OCR-щик (один из крупнейших в России) выступает под одним ником, как писатель и публицист под другим, а как финансовый аналитик под третим; может и АЧ здесь под другим).
Кстати сказать, его (АЧ) сканы - идеальный вариант для постобработки. Они максимально передают содержимое оригинала и совсем не содержат сомнительной правки (не секрет, что совсем не реставрированным вещам гораздо проще вернуть изначальный вид, чем после плохой реставрации; при чистке часто есть большое искушение не возиться с тем или другим не существенным с точки зрения чистильщика фрагментом, а просто его удалить. Многие обрезают поля под самый текст, что на мой взгляд, уродует книгу и резко ухудшает ее восприятие). Сканы (точнее, DJVU-файлы), необратимо искажающие оригинал встречаются и у очень крупных OCR-щиков. Если вам вздумается поправить DJVU-файлы от Zmiy (чего там править-то!) - мало ли - рисунок печатной платы перенести на резист не мудрствуя, например, то это не всегда получится - часть штриховых оригиналов фрагментарно передается полутоном и схема целиком нормально смотрится только при увеличении 100%. Если увеличить, например до 300% (на 300dpi) или до 600% (на 600dpi), что получается при извлечении в виде BMP или TIFF, нужно порядком правки, а часто (если рисунок мелкий) потери просто невосполнимы. То же и при передаче клише полутоном (во многих сканах Вадима) - картинки необратимо портятся. Если это ценные фотографии - жалко. Вообще, это косина DJVU Solo 3.1 - если есть хоть одна полутоновая или цветная страница (обложка, как правило, есть во всех приличных сканах), часть остальных он по своему усмотрению делает вот таким пятнистым полутоном, даже если они изначально бинарные. За DEE (Document Express Enterprise with DJVU) этого не водится. Вероятно, у Zmiy и у Вадима есть веские основания им не пользоваться.
Хотелось бы, чтоб OCR-щики высказались по поводу постобработки их сканов и по поводу реконструкций вообще.
Признаться, я считал, что это можно делать только для себя. Выкладывать, в смысле, нехорошо.