OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Об этике реконструкций (Прочитано 12656 раз)
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Об этике реконструкций
16.01.2006 :: 19:28:22
 
Это по поводу переделки сторонних сканов (чистка, ортогонизация, деление на страницы, бинаризация,
перетасовка - вынос вкладок и вклеек в конец с целью сохранения соответствия с оглавлением,
исправление опечаток, текстовый слой и т.д.).

Если скан безымянный и происхождение его никаким образом установить не удается, все просто:
пишу Scan by Unknown. Reconstruction by я, и все. Вадим по поводу таких переделок дал косвенное
разрешение помещать их в раздел "Книги для библиотек".

Вадим писал(а) 29.12.2005 :: 22:44:11:
Этично, если соблюдаются все копирайты! Если указано кто изначально создал файл (или хотябы откуда он взят, если нет более точной информации), то претензий со стороны изначального оцифровщика быть не должно...


Но когда скан именной - все не совсем просто.
Дело в том, что переделать, полностью сохранив сделанное до, практически невозможно. Часто и
переделывать-то приходится потому, что не устраивает именно КАК сделано. Да и в простейших случаях
дообработки (дополнительная чистка, ортогонизация, "на разворот - постранично") часто бывает
трудно сохранить изначальный формат. Например, Роман Ефимов метит каждую страницу своих
сканов (меленько по верхнему краю), а при обработке сохранить это довольно трудно. Не нравятся мне,
скажем, и выделения цветом гиперссылок (или размеры выделений). Как быть в таком случае? Можно ли
выкладывать, не рискуя задеть самолюбие автора скана? Не каждый, ведь, скажет, что мол, не по душе
мне это (что вполне понятно по всем статьям), а будет неприятно. Не хочется, чтоб было неприятно.

Другой вопрос - идентификация OCR-щика. Большинство крупных оцифровщиков метят свои сканы (Pirat,
ScanKromsator или тот же Роман Ефимов, например), однако, многие, даже очень крупные (Zmiy, например,
да и сам Вадим) никак свои сканы не помечают. Почему? Если кому мешает - убрать, ведь, легко, если
на белом и не водяными знаками через всю страницу. Если файлы приходят не из первоначального места выложения или после заимствования без ссылки, автор скана теряется. Так, те же сканы от АЧ, составляющие значительную часть технического контента Библиотеки, ранее числились у меня как by Unknown. Выложенный с косвенного разрешения Вадима ("... локомобиля" - намеренно бескопирайтная книга, представляющая исключительно исторический интерес) от АЧ был обнаружен мной у Вадима уже после того, как практически был переделан. Сканы от АЧ с точки зрения доработки наиболее мне интересны и уж на очереди несколько десятков книг. Чего и хотелось бы, чтоб если он бывает на форуме, сказал свое слово (многие разносторонние натуры выступают в разных амплуа под разными никами; так один из виднейших участников этого форума как OCR-щик (один из крупнейших в России) выступает под одним ником, как писатель и публицист под другим, а как финансовый аналитик под третим; может и АЧ здесь под другим).

Кстати сказать, его (АЧ) сканы - идеальный вариант для постобработки. Они максимально передают содержимое оригинала и совсем не содержат сомнительной правки (не секрет, что совсем не реставрированным вещам гораздо проще вернуть изначальный вид, чем после плохой реставрации; при чистке часто есть большое искушение не возиться с тем или другим не существенным с точки зрения чистильщика фрагментом, а просто его удалить. Многие обрезают поля под самый текст, что на мой взгляд, уродует книгу и резко ухудшает ее восприятие). Сканы (точнее, DJVU-файлы), необратимо искажающие оригинал встречаются и у очень крупных OCR-щиков. Если вам вздумается поправить DJVU-файлы от Zmiy (чего там править-то!) - мало ли - рисунок печатной платы перенести на резист не мудрствуя, например, то это не всегда получится - часть штриховых оригиналов фрагментарно передается полутоном и схема целиком нормально смотрится только при увеличении 100%. Если увеличить, например до 300% (на 300dpi) или до 600% (на 600dpi), что получается при извлечении в виде BMP или TIFF, нужно порядком правки, а часто (если рисунок мелкий) потери просто невосполнимы. То же и при передаче клише полутоном (во многих сканах Вадима) - картинки необратимо портятся. Если это ценные фотографии - жалко. Вообще, это косина DJVU Solo 3.1 - если есть хоть одна полутоновая или цветная страница (обложка, как правило,  есть во всех приличных сканах), часть остальных он по своему усмотрению делает вот таким пятнистым полутоном, даже если они изначально бинарные. За DEE (Document Express Enterprise with DJVU) этого не водится. Вероятно, у Zmiy и у Вадима есть веские основания им не пользоваться.

Хотелось бы, чтоб OCR-щики высказались по поводу постобработки их сканов и по поводу реконструкций вообще.
Признаться, я считал, что это можно делать только для себя. Выкладывать, в смысле, нехорошо.
Наверх
« Последняя редакция: 24.01.2006 :: 19:34:19 от Minor »  
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Об этике реконструкций
Ответ #1 - 17.01.2006 :: 00:25:47
 
Minor писал(а) 16.01.2006 :: 19:28:22:
Это по поводу переделки сторонних сканов (чистка, ортогонизация, деление на страницы, бинаризация, перетасовка - вынос вкладок и вклеек в конец с целью сохранения соответствия с оглавлением, исправление опечаток, текстовый слой и т.д.).
Хотелось бы, чтоб OCR-щики высказались по поводу постобработки их сканов и по поводу реконструкций вообще.
Признаться, я считал, что это можно делать только для себя. Выкладывать, в смысле, нехорошо.


Можно переделывать и выкладывать. Лично я никаких ограничений тут не вижу. Чужой скан - это не археологический раскоп - его нельзя безвозвратно испортить. Если кому-то та или иная переделка не понравилась - всегда можно взять оригинал, лежащий на десятках других сайтов и повторить процедуру на свой вкус. Или переделать переделку.
А уж про конвертации (djvu-pdf-txt-html-fb2 и... обратно в pdf) я и не говорю. Иной файл существует в сотнях вариантов, и никто по этому поводу не возмущается. Потому что, если файл был запущен в сеть (ведь речь идет про чужой, а он обязательно есть в сети) - всегда можно найти исходник.
Наверх
 

Slawa-614
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Об этике реконструкций
Ответ #2 - 17.01.2006 :: 12:44:16
 
Цитата:
Не нравятся мне, скажем, и выделения цветом гиперссылок (или размеры выделений). Как быть в таком случае? Можно ли  выкладывать, не рискуя задеть самолюбие автора скана? Не каждый, ведь, скажет, что мол, не по душе  мне это (что вполне понятно по всем статьям), а будет неприятно. Не хочется, чтоб было неприятно.

Я думаю это неправильно. Все-таки автор затратил силы на свой скан и уж тем более он учитывал какие-то особенности книги при оформлении. Тогда уж лучше вести переговоры непосредственно с автором скана...
Цитата:
многие, даже очень крупные (Zmiy, например, да и сам Вадим) никак свои сканы не помечают.

Зачем? От этого содержание книги не изменится. У кого есть совесть и уважение к чужому труду, тот оставит в архиве файл file_id.diz с информацией о книге и оцифровщике.
Ну могу и я вставлять экслибрис в джву... Это не только увеличит размер файла, но и незначительно исказит джву по сравн. с книгой... Подмигивание
Цитата:
Если вам вздумается поправить DJVU-файлы от Zmiy (чего там править-то!) - мало ли - рисунок печатной платы перенести на резист не мудрствуя, например, то это не всегда получится - часть штриховых оригиналов фрагментарно передается полутоном и схема целиком нормально смотрится только при увеличении 100%.

Виноват. Это особенности сжатия в джву. Язык
Еще раз напомню, что если на одной странице будет такая схема/плата и полутоновая/цв. картинка, то понятное дело сжимать надо не в битонал, а в сканед и хочешь не хочешь программа сама будет выбирать куда кидать и как сжимать фрагменты страницы. Т.е., как я понял, нельзя указать кодировщику фрагменты одной страницы с разными вариантами обработки.
Цитата:
Вообще, это косина DJVU Solo 3.1 - если есть хоть одна полутоновая или цветная страница (обложка, как правило,  есть во всех приличных сканах), часть остальных он по своему усмотрению делает вот таким пятнистым полутоном, даже если они изначально бинарные. За DEE (Document Express Enterprise with DJVU) этого не водится. Вероятно, у Zmiy и у Вадима есть веские основания им не пользоваться.

Никаких оснований не пользоваться нету... Напишу про это в теме про "красоту". Подмигивание
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1052
Россия
Пол: male
Re: Об этике реконструкций
Ответ #3 - 17.01.2006 :: 18:41:16
 
Я уже высказывался на эту тему. Если в файле сохраняются данные о всех, принимавших участие в создании и редактировании файла, то все этические нормы соблюдены.
Я абсолютно согласен с Славой. Переделывать файлы можно и должно (соблюдая копирайты, конечно)...
Наверх
 
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Об этике реконструкций
Ответ #4 - 18.01.2006 :: 20:45:33
 
Zmiy писал(а) 17.01.2006 :: 12:44:16:
У кого есть совесть и уважение к чужому труду, тот оставит в архиве файл file_id.diz с информацией о книге и оцифровщике.


Дело в том, что некоторые библиотеки, даже очень крупные (Колхоз, например), выкладывают непосредственно DJVU-файлы, а информацию об оцифровщике вообще не указывают (в пользу куда более важной для пользователя информации о размере, разрешении, постранично-на разворот). Если говорить об НТ-библиотеках, то я таких десятка три знаю: 80%, если не больше, сетевого НТ-контента.
Я в своей домашней библиотеке все файлы тоже держу не в архивах, переименованными в формате 8.3, чтоб были доступны под любой системой. Соответственно, информация о книге - в descript.ions. А сведения об оцифровщике и др. из file_id.diz - в потоках NTFS. Часто для друзей и знакомых приходится делать частичные клоны ее и при переносе на мобильные носители содержимое потоков, естественно, теряется. Знакомые дают другим знакомым и т.д. Потом может попасть в какую-нибудь сетевую библиотеку...
Вроде никто не виноват - се ля ви. Плохо, что в DJVU нет Preferences или TAG-ов, как во всех других - можно б было туда.

Zmiy писал(а) 17.01.2006 :: 12:44:16:
Ну могу и я вставлять экслибрис в джву... Это не только увеличит размер файла, но и незначительно исказит джву по сравн. с книгой... Подмигивание


Если уж ты такой щепетильный, можно ж вставлять инфо в виде ГИПЕРССЫЛКИ. Вот как DJVU Stamp делает, например. Там же можно и ссылку на свой http://zpdd.chat.ru/ Язык.
При печати не выводится. Контент не портит.

Zmiy писал(а) 17.01.2006 :: 12:44:16:
Еще раз напомню, что если на одной странице будет такая схема/плата и полутоновая/цв. картинка, то понятное дело сжимать надо не в битонал, а в сканед и хочешь не хочешь программа сама будет выбирать куда кидать и как сжимать фрагменты страницы.


Да нет в книгах никакого полутона! См. об этом в теме про "красоту". Подмигивание
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Об этике реконструкций
Ответ #5 - 23.01.2006 :: 17:32:11
 
Minor: «…при чистке часто есть большое искушение не возиться с тем или другим не существенным с точки зрения чистильщика фрагментом, а просто его удалить…»

Ну и ну, это кто же так делает? Наверное, все-таки Ваши фантазии.

Minor: «Признаться, я считал, что это можно делать только для себя. Выкладывать, в смысле, нехорошо».

Если доработка объективна, то даже надо выкладывать (понятно, сохранив первичный лейбл автора). Объективна же – это когда ошибки поправлены. Остальное – по вкусу (я, например, считаю, что чем проще вид версии, тем лучше, но необх. информация должна быть сохранена максимально; при доработке ее можно и дополнить). А форму «по вкусу» имеем право, если затратили труд на повторное считывание (правда, вопрос о DJVU здесь не затрагивается).
А то иначе как было, так и будет: все версии со своими первичными ошибками и опечатками на пятилетия-семилетия окаменевают. Здесь вопрос не в этике, ибо в данном случае это мелочь на фоне борьбы с энтропией.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Об этике реконструкций
Ответ #6 - 24.01.2006 :: 04:57:37
 
Gautier писал(а) 23.01.2006 :: 17:32:11:
Minor: «…при чистке часто есть большое искушение не возиться с тем или другим не существенным с точки зрения чистильщика фрагментом, а просто его удалить…»

Ну и ну, это кто же так делает? Наверное, все-таки Ваши фантазии.



Убирать авторский текст - просто смысла нет.
А вот если к авторскому смыслу прилагается предисловие или примечания от чудаков на букву м из редакции? А если переводчик разбирается в теме на уровне первокласника?
А как вам такой вариант - берется чужая книга  и публикуется с комментариями под своей фамилией?
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Об этике реконструкций
Ответ #7 - 24.01.2006 :: 05:56:28
 
Да вы чего, господа?
Как можно?! И в голову б не пришло!
Имеется в виду вычистка мусора на рисунках, когда тонкая очистка предполагает очень много работы - зачерченная круговыми движениями карандаша ребенка-урода картинка, например, или буквы под кляксой. Можно их восстановить (если то, что было, очевидно) факсимильно копируя из других мест текста, а можно просто вычистить, оставить белое пятно - вот на это и "налегает рука". На некоторых сканах бывает слишком широкая полоса раздела страниц, захватывающая текст - можно просто обрезать - текст все равно не видно - потери уже есть, а можно попытаться восстановить. Вот про это я. Про непосредственно скан.
Наверх
« Последняя редакция: 24.01.2006 :: 19:29:36 от Minor »  
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Об этике реконструкций
Ответ #8 - 24.01.2006 :: 06:07:53
 
amyatishkin писал(а) 24.01.2006 :: 04:57:37:
А вот если к авторскому смыслу прилагается предисловие или примечания от чудаков на букву м из редакции? А если переводчик разбирается в теме на уровне первокласника?



Вообще, грешен - при OCR иногда вот это самое делаю. Вот в сборнике "Интегральное скерцо". Научно-фантастические повести и рассказы о музыке. М. Музыка. 1990, например.

В тексте:
... он уже разбирал слова "Kyrie eleison" *.

Сноска:
* Господи помилуй (греч.). - Прим.перевод.


Я вполне позволяю себе сноску на сноску:

* Господи помилуй (греч.). - Прим.перевод. **
** Вообще-то это латынь. - Прим. OCR-щика.

Наверх
 
 
IP записан
 
Инклер
Активист
***
Вне Форума



Сообщений: 212
Москва
Пол: male
Re: Об этике реконструкций
Ответ #9 - 24.01.2006 :: 08:51:30
 
Я же оставляю предисловия, если оно что-то говорит о времени, в котором была издана книга. Типичные "совковые" выражения, к примеру.
А уж предисловие переводчика--оставить, несомненно, надо.
Наверх
 

...я их до сих пор  читать не устал--с детства знакомые книги...&&
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Об этике реконструкций
Ответ #10 - 24.01.2006 :: 17:40:30
 
Minor: «Я вполне позволяю себе сноску на сноску».

Ясное дело, и я всегда так поступаю, когда что-то сомнительное. Следует оставлять все из оригинала (не явные опечатки, конечно), но давать примечание. А то для чего же мы читаем, когда корректируем? И вообще, по-моему, полезно не стеснять себя в информац. примечаниях, когда редакция недоработала. Но надо так, чтобы всегда можно было восстановить оригинал, удалив наши пометки. Все наши пометки должны быть поименованы, как у Вас, к примеру. Я же пишу «Прим. Выполнившего OCR», и это, думаю, лучше, поскольку жаргонный OCR-щик сильно режет глаз и ухо. Зачем в книгу вставлять сленг-волапюк?
Теперь пример: вот сейчас я готовлю два разных перевода «Энкантадас…» Г. Мелвилла. Один - сам OCR, а второй - дополнительно считываю. Так вот, в моей версии, в книжном оригинале, написано [возле Ю. Америки] «пустыня Аракама», а во втором переводе – «Атакама». Посмотрел я в атласах–словарях, никакой Аракамы нет, зато Атакама – действительно имеется в Ю. Америке. Что делать в первом случае? Опечатка это в книге или же переводчица что-то имела в виду или знает чего-то? Я не осмелился заменить Аракаму на Атакаму, но дал сноску, что так и так, что вероятна ошибка-опечатка, ибо в другом переводе и вообще в словаре и атласе…

amyatishkin: «А как вам такой вариант - берется чужая книга и публикуется с комментариями под своей фамилией?»

Не понял. Комментарии под своей фамилией или книга?

Инклер: «Я же оставляю предисловия, если оно что-то говорит о времени, в котором была издана книга. Типичные "совковые" выражения, к примеру.
А уж предисловие переводчика--оставить, несомненно, надо».

Присоединяюсь. Сейчас я стал представлять все предисловия-послесловия именно из-за ценности отображения времени. А раньше тоже думал – на хрен это старье и/или эти глупости нужны. Ведь и мы многое написать можем, только нужно ли… Так я думал когда-то. И в своей первой версии в 2002 г. так и написал: не ценно данное тенденциозное предисловие сов. времени, дескать. Но потом я его все-таки доставил. Памятники это.
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Об этике реконструкций
Ответ #11 - 24.01.2006 :: 19:33:09
 
Gautier писал(а) 24.01.2006 :: 17:40:30:
Я же пишу «Прим. Выполнившего OCR», и это, думаю, лучше, поскольку жаргонный OCR-щик сильно режет глаз и ухо. Зачем в книгу вставлять сленг-волапюк?


Это точно - режет. Эт я так. А вообще пишу - оцифровщика или даже копировщика, когда без OCR (просто DJVU).
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Об этике реконструкций
Ответ #12 - 25.01.2006 :: 07:57:09
 
Инклер писал(а) 24.01.2006 :: 08:51:30:
Я же оставляю предисловия, если оно что-то говорит о времени, в котором была издана книга. Типичные "совковые" выражения, к примеру.
А уж предисловие переводчика--оставить, несомненно, надо.


А нынешние выражения оставлять обязательно?
А переводчики в предисловиях нынче не про книгу любят пописывать, а больше других переводчиков поливать вторичным продуктом.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Об этике реконструкций
Ответ #13 - 25.01.2006 :: 08:15:53
 
Gautier писал(а) 24.01.2006 :: 17:40:30:
Не понял. Комментарии под своей фамилией или книга?

Инклер: «Я же оставляю предисловия, если оно что-то говорит о времени, в котором была издана книга. Типичные "совковые" выражения, к примеру.
А уж предисловие переводчика--оставить, несомненно, надо».

Присоединяюсь. Сейчас я стал представлять все предисловия-послесловия именно из-за ценности отображения времени. А раньше тоже думал – на хрен это старье и/или эти глупости нужны. Ведь и мы многое написать можем, только нужно ли… Так я думал когда-то. И в своей первой версии в 2002 г. так и написал: не ценно данное тенденциозное предисловие сов. времени, дескать. Но потом я его все-таки доставил. Памятники это.


Пример приведу
Книга называется
Кормилицын С. В., Лысев А. В. Ложь от Советского Информбюро. — СПб.: Нева, 2005.
Внутри она состоит на 90% из дневника Чуркина В.В., (на Милитере выложено как "Дневник ополченца 88-го артиллерийского полка 80-й стрелковой Любанской дивизии Василия Чуркина").
Оставшиеся 10% - сообщения Совинформбюро за эту же дату и пальцесосание Кормилицына&Лысева на тему как советская власть обманывала народ. Причем к середине книги эти сообщения заканчиваются (я так думаю, что афторов напрягло достать следующий том) и следует примечание - "дальше эти сообщения соответсвуют действительности".
Авторы - как бы историки, специалисты по Второй мировой. Кормилицын, например, выпустил в этой же серии книги "Адольф Гитлер - взгляд из зеркала", "III рейх - Гитлерюгенд".


Про предисловия. Сейчас в некоторых предисловиях редакции остается то же самое поливание грязью конкурентов. При этом в теме эта редакция разбираться не желает, а книжку производит путем сканирования перевода 50-х годов.
А в 50-х, вообще-то, те, кто писали предисловия, в теме разбирались. Они зачастую приносили политический взгляд, но писали по делу.
А те, кто писал предисловия в 30-х, разбирались в теме получше авторов.

PS. Мне вообще то больше со специализированной литературой иметь дело приходится. К предисловиям в худлите я спокойней отношусь.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Об этике реконструкций
Ответ #14 - 31.01.2006 :: 14:50:00
 
Не знаю, как быть в таких случаях. Наверное, пусть будет то двадцатьпервый-пальцесосание нынешних сквернавцев, раз всего 10% оно занимает от общего OCR. Тоже, знаете, памятник нынешнему гнусному времени. Я бы в своей вводной статье от Выполнившего OCR позволил бы в таком случае соответствующие замечания.
Еще раз скажу насчет идеологии подготовки версий. Надо исходить из того, что версия как бы навеки поселится в Интернете, с его огромной аудиторией. Это ведь не книги с нынешними тиражами в 3-7 тыс. Оказывается же так, что каждая версия как бы окаменевает, и никто, как правило (к сожалению) уже не будет ее ни исправлять, ни дополнять. Поэтому надо исходить не из сегодняшней конъюнктуры, не из сегодняшних понятий-реалий, а из того, что версия останется в Сети и через 10, и через 20 и (надеюсь) через 100 и более лет. Наступит время, и кто-то соберет все данные про тех сквернавцев и сделает правильные выводы.
Наверх
« Последняя редакция: 31.01.2006 :: 15:01:46 от Gautier »  
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать