OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Качество версий (Прочитано 9727 раз)
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Качество версий
16.03.2005 :: 14:46:50
 
Хотя мне и все ясно, но кажется целесообразным открыть тему о качестве считки. Полагаю, что важные труды в текстовых форматах надо считывать два раза. Это, конечно, не касается проходящей фантастики и детективов, которые, вероятно, целесообразно выполнять в DJVU, чтобы не тратить драгоценное время и силы.
Я уже писал про все это в "Правилах OCR-2005", и меня не переубедить насчет двух корректур, но хотелось бы услышать аргументы противной стороны, если таковая наличествует.
Готье Неимущий Подмигивание
Наверх
 
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Качество версий
Ответ #1 - 16.03.2005 :: 15:21:33
 
По-моему - наоборот: науку и справочники - только в DJVU (дабы не плодить ошибки и вопросы читателей - "верно/не верно?"). Слепок книг - так, как он есть (который уже проверил коллектив редакторов и корректоров).
А вот фантастику и детективы - распознавать, дабы уменьшить размер файла и создать возможность конвертации в любые операционные системы (не все ведь под виндами сидят). Если же там встретятся ошибки, это не смертельно (в отличие, скажем, от незамеченной ошибки в рецептурно-фармакологическом справочнике).

Более того, электронный худ.лит сейчас в основном читают на наладонниках. А формат DJVU для многочисленных палмоводов и Е-букеров - совершенно бесполезен. Так кому тогда djvu-шный детектив нужен? Ни на палм закачать, ни на сайт выложить...
Наверх
 

Slawa-614
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Качество версий
Ответ #2 - 17.03.2005 :: 01:30:22
 
Согласен со Славой по поводу что сканировать в djvu, а что распознавать.
Все таки djvu и продвигался для сканирования различной физ., мат., радио и др. литературы с множеством  схем и формул, для которой OCR является ненадежным и затратным.

("Правила OCR-2005" еще не успел прочитать, но прочту обязательно. Круглые глаза Проблемы с лишним временем - сижу вот ответы в форум пишу... Улыбка Предыдущие правила читал и многое реализовано у меня в макросе для Ворда, который форматирует текст по тем правилам.)

По поводу 2 раза вычитывать - а почему не три или не семь? Подмигивание Идеала не получится - мелкие незаметные ошибки все равно останутся. Начиная от личной трактовки правил рус.яз. и заканчивая простой невнимательностью.
Тогда уж делать такие книги в djvu - там вычитки вообще не надо...
Если посчитать, так у меня 5 корректур Улыбка - вначале в самом ФР, потом первый быстрый проход по тхт корректирую чего пропустил в ФР, потом проверка на недопустимости знаков преп. и сомнительных слов при помощи своего плугина к FARу, потом пропускаю текст через AfterScan, ну и наконец еще одним плугином определяю пропавшие точки (зн.преп.) в тексте...

А насчет того, что кому сканировать (фантастику или "важные труды") - так это личное дело каждого.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Инклер
Активист
***
Вне Форума



Сообщений: 212
Москва
Пол: male
Re: Качество версий
Ответ #3 - 17.03.2005 :: 07:28:03
 
Идеал вычитки достигнут Торой--304 805 знаков. Иначе Тора просто недействительна. Стремиться к этому ?
Вспомните, были академические , т.е. выверенные собрания сочинений, а были и обычные.
Разумеется, я не призываю к отказу от проверок, а просто напоминаю о недостижении идеала. Если хотите,  то Божественного идеала.
Наверх
 

...я их до сих пор  читать не устал--с детства знакомые книги...&&
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Качество версий
Ответ #4 - 17.03.2005 :: 13:25:03
 
Готье.
1. Относительно DJVU. О чем речь - конечно, спец. лит-ру (мат. и пр.) только в них. Где формулы-таблицы. Жаль, что не все прочли соответствующий раздел в "Правилах-2005". Там все подробно прописано про текстовые и DJVU для разных типов лит-ры (мое мнение, конечно). Я для текстового имею в виду монографии, научно-популярные и научные издания, скажем, по истории. Путешествия там. Те, с текстом которых кто-то будет работать. Вот их-то и надо в текстовых форматах. Вопроса же о большинстве проходящей совр. беллетристики не касаюсь. Просто жаль человеко-часов тех, кто считывает все это. Чтобы наложить побольше в библиотеку, кто-то тратит чудовищный труд по считыванию всего этого. Зачем, раз есть DJVU? Скачают, кому надо. Полагаю, что труд надо затрачивать только на устоявшееся, а остальное - по минимуму, только чтобы прочитать.
Вот (правда, хорошая), фантастика Фрэнсиса Корсака. Смотрю, прислали недавно его вещи. А у меня есть старая библ. с рынка на 2-х CD. Год 2001. Смотрю, там все те же вещи. Сравнил опечатки в тех от 2001 и в только что присланных Ершову - опечатки разные. Значит, второй раз сканировали-считали ту фантастику. И это вместо того, чтобы поправить получше что-то устоявшееся (хотя бы "Ходжу Насреддина", например).
2. Почему две считки "а не пять?" А потому, что одной корректуры мало, а пяти - много. Насчет того, что одной мало, это каждому из вас ясно, не кривите душой. А вот две, опыт показывает, достаточно. Любопытно, найдете что-нибудь в моем "Митридате", Фуксе-Хиллари про Антарктиду и в "На мопедах по Африке". В ваших же иной раз имеются и смысловые опечатки, которых после второго считывания нет точно. Насчет же того, что к считкам приравниваются всякие "Afterscan", проверка в FR и т.п. не согласен. Считка - это только "глаза и задница", как я и писал в "Правилах-2005" с примерами по поводу тех "автопроверок".
3. Понятно, что скучно два раза считывать, но можно делать перерывы между подготовкой разных книг. Куда спешить? Лично для меня каждая версия - событие, я не пеку их как блины. Поэтому и вожусь столько. Кроме того, полагаю, что каждый мастер OCR затрачивает свой труд на что-то ценное и важное для него (иначе я не понимаю такого запала). А раз ценное - то и обрамление для дорогого и ценного тебе должно быть соответствующее.
4. Когда я первый раз попал в Сеть, то наивно думал, что каждый, кто читает там книгу, поправляет опечатки а затем отсылает вариант в библиотеку для замены. И думал, что в результате версии становятся все лучше и лучше. Вот такой я был чудак. Все оказалось не так - почти никто не правит, ибо никто, наверное, не читает в Word. Да и заменить версию часто не допросишься лишний раз.
5. Последнее. Электронные библиотеки - качественный прогресс по сравнению с бумажными. А получается так, что в них энтропии и хаоса более, чем в бумажных. Какой же это прогресс? Люди на протяжении истории с энтропией борются, а вы призываете наплевать на нее - и так сойдет. Не правы в философско-идеологическом плане, а на самом деле просто самоубеждаете себя, поскольку два раза считывать, конечно, неохота.
Все сказанное отношу только к своим - к мастерам OCR. Если какой-то просто читатель-потребитель вдруг претензии к качеству начинает публично предъявлять - то наглость, захребетничество, потребительство и т.п.
Готье Неимущий
Наверх
 
 
IP записан
 
Xac
Новичок
*
Вне Форума


Всем привет!

Сообщений: 7
Украина, г.Южноукраинск
Пол: male
Re: Качество версий
Ответ #5 - 18.03.2005 :: 22:32:35
 
Gautier писал(а) 17.03.2005 :: 13:25:03:
Готье.
Все сказанное отношу только к своим - к мастерам OCR. Если какой-то просто читатель-потребитель вдруг претензии к качеству начинает публично предъявлять - то наглость, захребетничество, потребительство и т.п.
Готье Неимущий


Я не согласен 100%. Я начинал как читатель. Сейчас немножко OCR. РЕБЯТА мы работаем не для СЕБЯ а ДЛЯ ЧИТАТЕЛЯ. Давайте его уважать. Поправьте свои OCR (это не по конретному адресу). Иногда выложен текст напрямую со сканера, без вычитки. Уважайте ЧИТАТЕЛЯ
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Качество версий
Ответ #6 - 22.03.2005 :: 16:30:17
 
Наверное, у нас разные цели и задачи.
Философское кредо Готье Неимущего (не претендует на абсолютность)
В глобальном масштабе я работаю не для конкретного читателя, а для тех авторов и для тех трудов, которые выполняю. Что такое конкретный читатель в данный узкий промежуток времени? Мелочь пузатая, ничто по сравнению с вечностью. Да и люди, хорошо бы понимать, "живут не только в пространстве, но и во времени" (самоцитата). А это значит, что спешить не следует - полагаю, что мы частично готовим базу человечеству (русскоязычному), но не версии на потребу и утеху какому-то сиюминутному читателю.
Стоит ли современный читатель в нашей Россиянии, а, в особенности, бывшие российские, того, чтобы тратить на него труд? Это - вряд ли.
Мне плевать на широкого читателя (не совсем, конечно), но получается так, что результат работы не на какого-то замухраного читателя или Вебмастера, а на "вечность", для самой книги, дает в конечном счете больше конкретным читателям и Вебмастерам (по крайней мере, во времени), чем попытки деятельности "на читателя" и для "наладонного" компьютера в сортире. И получается гораздо большее "уважение читателя".
Ведь посмотрите сами: много ли качественных, "доконченных" версий в Сети? Всего полно, но удовлетворения нет.
Далее конкретно:
а) Инклеру насчет Торы.
Нечего размывать ясный вопрос банальностями. Идеал в данном случае известен — чистота хотя бы не менее той, что предусматривалась по ГОСТу времен СССР (1 опечатка на 40.000 знаков). Должно быть так: версии устоявшихся трудов подобны книгам на полках - взял их, и уверен, что они по крайней мере не хуже, чем были во времена до "перестройки". Чтобы нам не шкаф, а CD.
б) Zmiy насчет «важных трудов», которые «личное дело каждого».
Напрасно иронизируешь кавычками «важных». Ты сам выполнил огромную массу именно «важных» трудов (хотя бы Станюкович, Писемский, Твен и пр.), а ставишь их на один уровень с мелким проходящим чтивом. Многое устоялось в веках, и его важность определена не какой-то личностью, но людьми за десятилетия и столетия. Какое тут «личное дело»? Это головка одна хорошо, а голов тут чем больше – тем лучше.
Не верю я, что ты со своим опытом действительно считаешь, будто одной корректуры (глазами) достаточно. И не понимаю я, как у многих совмещается выполнение серьезной литературы с выполнением явно не обязательных книг. Мне просто физически жаль того времени, которое потрачено на последние, когда нормально не вычитан, скажем, даже "Швейк", и в Сети совсем немного Салтыкова-Щедрина.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Качество версий
Ответ #7 - 23.03.2005 :: 02:00:39
 
Цитата:
Наверное, у нас разные цели и задачи.

Возможно.

Я сканирую те книги, которые мне удается купить или которые мне дают люди. В библиотеках из того, что хотелось бы сканить, я посмотрел - почти все книги или в плачевном состоянии, или в каталоге есть, а сами списаны, или библиотекарше лень сходить поискать книгу в хранилище, или полчаса её рассказывать на кой мне эта книга сдалась... Меня не тянет ходить в биб-ки...

Мне больше нравится сканить худ.лит., а не научную... А уж тем более не захочется вычитывать научную.
Ну и уж тем более не захочется сразу второй раз считывать то, что только что прочел (и я думаю этого не захочет подавляющее большинство OCRщиков).

За качество своих сканов я отвечаю. Естественно не гарантирую 100% отсутствие ошибок. Но эти ошибки, если и есть, не настолько искажают смысл текста.
Автоматической вычитки доп.средствами у меня нет - у меня полуавтоматическая, т.е. я мои плугины к FARу сканируют текст, останавливаются на возможных ошибках, а уж я решаю что правильно. В AfterScan тоже - от него я беру только список возможных неточностей и сам его сверяю с текстом.

Прочитал (насколько смог Подмигивание ) Ваш Methods_OCR_2005.doc.
Ну уж очень он большой по описанию. Я бы не рекомендовал его для чтения начинающим OCRщикам. Это скорее для каких-то профессионалов, которые работают в издательствах и получают деньги за свою "работу", в результате которой даже в бумажных книгах получаются нелепые ошибки, как будто там книги вообще не вычитывают...

Если пробежаться по рекомендациям и коротко повозражать Подмигивание, то -
- если бы в каком-нибудь месте собирались все электронные версии, которые есть в Интернете - похоже Вы никогда не были у меня на сайте - zmiy.da.ru - там мой список книг в эл.виде формируется с 2001 года.
- ценный труд человеческий тратится на считывание третьестепенных детективов - ну тут я уже говорил, что каждый будет сканить то, что ему по душе и те книги которые есть на руках. И уж не за красивые глаза во Франции на выставке рос. книг была Маринина, а наверно все-таки за "третьестепенные детективы"...
- Хочется — в DJVU ее - уж этого никогда не будет, т.к. скачивается по кол-ву больше детективов и всякой фэнтези, чем научной литературы. И хозяева биб-к не захотят тратить трафик на огромные джву в n-м кол-ве... Людей не перепрограммируешь - им больше нравится фантастика и др.
- формат книг - мне все больше нравится RTF. Вот может допишу когда-нить свою программу zd2t  конвертирования из rtf в txt с сохранением картинок плюс сам буду делать малые rtf (там и таблицы сохранятся от Wordа), то буду делать только RTF... Конечно, для всякой сложной схемной-формульной лит-ры все-таки рекомендуется DJVU.
Кстати, в RTF тоже можно делать картинки отдельно от текста. И  проблем с № у меня не было, т.к. я из Ворда (вер. 2003) сохраняю в rtf, а потом в Атлантисе его "уменьшаю"...
- Надо твердо запомнить: форматы, не поддерживающие курсив, не годятся - для тех кто просто читает текст в какой-нить Говорилке, им пофиг всякие курсивы...
- Классику целесообразно представлять в основном в DJVU - смешно (см.выше). Такие объемы качать не будут сидючи на модеме. Это "медвежья услуга".
- * * * - я бы сказал, что это глава без названия. А вот отступ строками - это логический отступ в тексте. И я не меняю одно на другое, т.к. считаю это разным по смыслу. Тем более видел в книгах и то и другое на одной странице...
- всегда указывают в тексте версии номера страниц книжного оригинала - в эл. книгах нет понятия страницы. Мне так и хочется спросить у тех кому это надо - "Может Вам еще за просто так диссертацию написать!?"
- Необходимость в технической вводной статье от Выполнившего OCR - вот этой ерунды не надо в эл.книге! Отдельно - пожалуйста.
- не следует делать более двух символов абзаца подряд - вот с этим я категорически не согласен! Чтобы главы и др. отличались от других центрованных предложений, у них должно быть больше символов абзаца (ПС - переводов строк). Я делаю 3 ПС на главах и др. и 2 ПС на центровках в тексте (например, текст вывески на какой-то двери или центровок после двоеточия).
- правила оформления - у меня это автоматом делает макрос в Ворде, написанный по Methods_OCR.doc. Но у меня не все реализовано.
- Буквы с ударениями - нельзя такого делать, т.к. на таких буквах не проходит поиск букв без ударения...
- советы по обработке текста - это у меня делает моя программка cltxt (есть у меня на сайте), которая берет тхт после FR и исправляет неточности оформления, подготавливая текст для полуавтоматической вычитки.
- советы по считыванию текста, найти и заменить - это у меня делается моими плугинами к FARу - но не в варианте "поиск-замена", а автоматическое сканирование текста и останов на запрограммированных мною неточностях - неправильные знаки препинания, мусор или "систематические ошибки" и др.

Продолжение следует... (а то спать охота)

См.тут вложение - список (кодировка DOS=ALT) "систематических ошибок" FR (типа "па", "пего", "пес" и др.), на которых останавливается мой плугин - более 2000 слов...
Наверх
 

BadWords.txt (Вложенный файл удален)

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Качество версий
Ответ #8 - 28.03.2005 :: 15:16:25
 
Ответ Zmiy.
Меня можно на "ты", если, конечно, то "вы" не поставлено специально с целью ледяной вежливости. Я же без всяких мыслей и вежливости вновь перехожу на "ты". Позволю себе с чем-то согласиться, а что-то уточнить.
1. Насчет того, что «Правила» слишком сложны, громоздки и вообще для профессионалов, у которых все равно потом на титульном листе «Энциклопудия».
Может, у них и так, но ты и на меня намекаешь. Уверен ли ты в этом применительно ко мне? А если нет, то - зачем обижаешь, слушай… К тому же, думаю, что если ты сам опишешь все, что делаешь, вряд ли будет меньше. А то и больше, поскольку я постарался убрать за два года лишнее. Разве не так? А вот те «профессионалы» нынешние как раз ничего такого соблюдать не станут, ибо им это без надобности – другие цели. Называть же меня «профессионалом» по данному вопросу просто смешно, ибо я – любитель тут.
2. Разбирать вопрос о том, что критерий значимости - широкая популярность на данный момент («Маринина»), не будем. С этим согласиться невозможно. Заслуживает отдельной статьи, но, боюсь, будут банальности. Если не ошибаюсь, даже молодой Пушкин все это рассматривал.
3. Насчет трафика и по DJVU - ты просмотрел, поскольку я уже написал в "Правилах", что этого вопроса и коммерческих интересов сайтов не касаюсь (насчет посещаемости и т.п.).
4. Рад слышать насчет RTF. Видел как-то твой "малый" RTF и очень удивился, как ты сумел вставить туда рисунок-фото автора с нормальным качеством (не помню книгу). Наверное, модифицировал какую-то программу. В широкое пользование надо бы метод; в особенности важны таблицы в «малых» RTF.
5. Насчет курсива: ты зачем тенденциозно вырвал из контекста? Там имелась в виду классич. худ. лит-ра; приводился пример с Чеховым. А вовсе не проходящая беллетристика.
6. Насчет DJVU классики - совсем не смешно. Ты снова вырвал из контекста, и это вновь нехорошо. Там говорилось, что если кто желает один раз в жизни взять собрание сочинений, скажем, Достоевского или Диккенса без ошибок, то оторвется от своего "рваного модема" и возьмет в Интернет-кафе. Не так уж и дорого.
7. Где "глава без названия", а где логический отступ - субъективизм. И я видел, как одна редакция делает просто отступ, а другая для того же текста дает "звездочки". Но последние помогают это найти в электр. версии, отступ же твой логический если что может потеряться. Поэтому даже если ты и прав, все равно надо помечать чем-то кроме отступа.
8. Отдельно выполненную технич. статью от Выполнившего OCR читать никто не станет (поленится), и если кто будет выкладывать версию на сайт в HTML, то многое не учтет (я приводил такой пример в «Правилах»). Называть же ерундой то, что облегчит последующую работу другим с твоей версией, кажется по крайней мере странным. Эту статью должны прочесть, а потом ее можно и стереть.
9. Буквы с ударениями и особые буквы все-таки делать надо, но, конечно, следует указывать на них в той технич. статье. Чтобы в том числе при поиске учитывали и при конвертации в HTML. Но смотри: ты не сделаешь, скажем, нормальных скандинавских букв, например, в названии из оригинала, потом версия пойдет гулять дальше и т.п. Кто-то цитировать-ссылаться начнет. Размножится недочет. Конечно, все это, вновь, не к беллетристике относится.
10. Спасибо за список систем. ошибок FR. Жаль, что я не умею делать те плугины и ими пользоваться. Ты бы описал все это, что ли…
P.S. Особенно впечатляют систематические ошибки FR «жепа», «жепе», «жепой» и «жепу». Ты, я гляжу, все на свете предусмотрел. Если бы ты сам написал «Руководство» с перечислением всех своих сист. ошибок, то оно, вероятно, было бы в разы больше моего.
И спокойной ночи. Я тоже всем этим по ночам занимаюсь. Подмигивание
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Качество версий
Ответ #9 - 30.03.2005 :: 12:33:26
 
А про разделение труда что думаете?
Ведь кроме, собственно, OCR-щиков есть и вычитыватели.
Как вы считаете:
в конвейере сканщик-вычитыватель больше плюсов, чем в стандартной модели OCR "все в одном"?
Повышается ли в конечном итоге общее качество книги?
Наверх
 
WWW 67730822  
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Качество версий
Ответ #10 - 30.03.2005 :: 15:04:42
 
Ustasu'у от Готье.
Я полагаю, что всегда хорошо, если кто-то еще раз считает версию. Даже без книги. Всегда готов направлять свои на дополнительную доработку. Идеал же, как мне думается, таков: один выполняет OCR и первое считывание + методику после OCR, а потом другой - второе считывание.
Второй может даже не иметь книги. Если он найдет что-то сомнительное, что просто нельзя поправить (смысловое) то он обращается к первому, у которого книжный оригинал. Тогда и первому будет не так скучно второй раз читать. Единственно - первый должен обратить особое внимание на расстановку абзацев и прямой речи, поскольку данные параметры могут варьировать в русском языке, а оригинал книги - только у первого.
Как хорошо, что Вы подняли этот вопрос. Впрочем, я настроен пессимистично: к сожалению, подобную практику доработки кроме меня почти никто не осуществляет. Наверное, потому, что читают либо на "наладонных" компьютерах, либо в программах, где не предусмотрено редактирование. Я же все всегда читаю в DOC, специально в него переводя.
Такое впечатление, что все делают версии под лозунгом "Скорей-скорей!", как будто кто-то гонит или платит за количество. А потом версия с ошибками "каменеет", и ее уже не выцарапаешь из Сети.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Качество версий
Ответ #11 - 31.03.2005 :: 00:11:36
 
Ustas писал(а) 30.03.2005 :: 12:33:26:
А про разделение труда что думаете?
Ведь кроме, собственно, OCR-щиков есть и вычитыватели.
Как вы считаете:
в конвейере сканщик-вычитыватель больше плюсов, чем в стандартной модели OCR "все в одном"?
Повышается ли в конечном итоге общее качество книги?

Да-а... Давно мы рассуждаем над таким механизмом взаимодействия OCRщика и Вычитчика, но никак это все не можем организовать, т.к. Вычитчик-то тоже должен радеть за дело, а не просто за надпись "вычитал такой-то"...
Лучше чтобы первую вычитку делал тот, кто сканировал, т.к. он непосредственно видел огрешности сканирования и распознавания. Вторую вычитку должен делать другой человек, т.к. первому будет неинтересно читать тоже самое... Третью - третий человек...  ну и т.д.
Так будет намного качественнее, нежели 10 раз один и тот же человек будет вычитывать одно и тоже.  Во всех последующих вычитках он будет думать - ага, я это довольно внимательно читал в прошлый раз, так сейчас пропущу... Это неправильный метод.
По крайней мере я даже своими методами находил ошибки после вычиток других людей моих сканов.

Мне порой противно смотреть на новинки сайта _www.fantast2.com, где все время утверждается, что "вычитывала Валентина". Это позор, а не вычитка!
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Качество версий
Ответ #12 - 31.03.2005 :: 00:14:16
 
Gautier писал(а) 30.03.2005 :: 15:04:42:
Ustasu'у от Готье.
Как хорошо, что Вы подняли этот вопрос. Впрочем, я настроен пессимистично: к сожалению, подобную практику доработки кроме меня почти никто не осуществляет. Наверное, потому, что читают либо на "наладонных" компьютерах, либо в программах, где не предусмотрено редактирование. Я же все всегда читаю в DOC, специально в него переводя.
Такое впечатление, что все делают версии под лозунгом "Скорей-скорей!", как будто кто-то гонит или платит за количество. А потом версия с ошибками "каменеет", и ее уже не выцарапаешь из Сети.


1. Даже на наладонниках ряд сознательных товарищей вычитывает книги (ставя букмарки, либо пользуясь клоном Хаали для ПокетПС)
2. Мне кажется, что уже накоплена достаточная книжная эл.масса чтобы начать приводить ее в качественно иной вид.
Я пытаюсь сделать это с приключенческой литературой, не выкладывая в сеть невычитанные и непроверенные книги.
Главное - терпение и качество.
3. Как справедливо заметил один OCRщик (Zmiy, если не ошибаюсь) - имя выполнившего OCR и вычитку должно означать определенное качество (брэнд?  Подмигивание).
Например, видя что выполнил OCR мой земляк Zmiy  Класс, я заранее готов к высокому качеству е-текста.
То же относится и к полкам г-на Ершова.
4. Собственно, лично я перед OCR тщательно проштудировал все доступные руководства.
И во многом, мои взгляды совпадают с позицией Zmiy'a.
Наверх
 
WWW 67730822  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Качество версий
Ответ #13 - 01.04.2005 :: 00:42:27
 
Gautier
Цитата:
К тому же, думаю, что если ты сам опишешь все, что делаешь, вряд ли будет меньше.

Напишу когда-нибудь... Ну уж меньше и не так подробно. Для новичков это сложно...

Цитата:
3. Насчет трафика и по DJVU - ты просмотрел, поскольку я уже написал в "Правилах", что этого вопроса и коммерческих интересов сайтов не касаюсь (насчет посещаемости и т.п.).

А в него все упирается... Я лично не качаю те djvu, которые в txt будут меньше по объему.
Я качаю только то, что в txt непредставимо - про головоломки или фокусы например...

Цитата:
Видел как-то твой "малый" RTF и очень удивился, как ты сумел вставить туда рисунок-фото автора с нормальным качеством (не помню книгу). Наверное, модифицировал какую-то программу. В широкое пользование надо бы метод; в особенности важны таблицы в «малых» RTF.

ЖЗЛ с такими фото делал...
Ничего необычного - любые картинки (полутон/цветные) я сканирую отдельно в 300 dpi, потом конверчу через IrfanView или PaintShopPro (если с доп.коррекциями) в размер 500 точек по высоте. Такие картинки сойдут для htm/chm версий, если кто-то захочет сделать. А в Ворде, вставляя картинку, указываю масштаб увеличения примерно 700% - и в doc тоже все прекрасно смотрится. Т.е для экранной копии это вполне сойдет. Потом сохраняю в rtf и преобразую его в малый через Atlantis.

Цитата:
5. Насчет курсива: ты зачем тенденциозно вырвал из контекста? Там имелась в виду классич. худ. лит-ра; приводился пример с Чеховым. А вовсе не проходящая беллетристика.

На что вам курсив? К примеру, программа голосового чтения его как-то по-другому прочтет?

Цитата:
6. Насчет DJVU классики - совсем не смешно. Ты снова вырвал из контекста, и это вновь нехорошо. Там говорилось, что если кто желает один раз в жизни взять собрание сочинений, скажем, Достоевского или Диккенса без ошибок, то оторвется от своего "рваного модема" и возьмет в Интернет-кафе. Не так уж и дорого.

Хм... Библиофилы больше будут ценить какую-то djvu версию текста, нежели реальную бумажную книгу позапрошлого века? Сомневаюсь...
А для эл.текстов и небиблиофилов такие djvu-книги не нужны - им что попроще - txt/doc...
А ошибки... Да их в djvu версии будет больше чем в бумажной.

Цитата:
7. Где "глава без названия", а где логический отступ - субъективизм. И я видел, как одна редакция делает просто отступ, а другая для того же текста дает "звездочки". Но последние помогают это найти в электр. версии, отступ же твой логический если что может потеряться. Поэтому даже если ты и прав, все равно надо помечать чем-то кроме отступа.

Я в некоторых книгах видел и подразделение *** и пустыми строками на одной странице книги. Поэтому считаю это разным подразделением.

Цитата:
Называть же ерундой то, что облегчит последующую работу другим с твоей версией, кажется по крайней мере странным.

Ну, когда в разных текстах одна и та же длинная вводная статья рассказывает о том, что там сделал какой-то OCRщик, то это надоедает...

Цитата:
Буквы с ударениями и особые буквы все-таки делать надо,
Кто-то цитировать-ссылаться начнет.

А докторскую диссертацию за просто так им не надо написать?

"Я не издатель книг, я нарушаю чьи-то авторские права, я за это (за OCR) не получаю никаких доходов, я слишком занят чтобы по 10 раз (образно говоря) вычитывать, скажите спасибо что я отсканировал книгу, и т.д. в том же  духе..." - так ответит подавляющее большинство OCRщиков и "OCRщиков".
Слишком большие требования не надо ставить любителям OCR книг. Сложно что-то требовать от простых читателей, которые ради интереса сканируют книги для других. Кто-то лучше, кто-то хуже. Вторых все равно будет больше. Ну не основная это работа у людей - сканировать и вычитывать книги!
У кого есть совесть, тот будет лучше вычитывать. Но уж раз меня на 2 вычитки не тянет, то что говорить о новичках, которым надо что попроще и побыстрее, пока они войдут в ритм, наберутся опыта, понаступают на грабли или у них проснется совесть...

Цитата:
Конечно, все это, вновь, не к беллетристике относится.

Ну... если всё, что написано в Methods_OCR_2005.doc, относится только к "правильной" литературе, то непонятно для кого это вообще написано...  Для 2-3 человек из 100, считающих научно-популярную литературу выше фантастики с детективами?
Большинство все же сканирует популярную литературу (пользующуюся большим спросом),  а не научную... А те кто сканирует научную или учебную просто-напросто ее не вычитывают или замусоривают текст номерами страниц для каких-то неизвестных цитировщиков...
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Качество версий
Ответ #14 - 11.04.2005 :: 13:13:25
 
Все-таки приходится еще раз отвечать Zmiy, поскольку он явно может ввести многих в заблуждение и соблазн.
Насчет курсива, по крайней мере. Для чего отрицать очевидное? Только чтобы на своем настоять? Несерьезно это, как и соответствсующие аргументы. Даже с "голосовым чтением" смешно: ведь и там может быть воспроизведение курсива какими-то аудиометками.
На днях я специально посмотрел раннего Диккенса, и там полно авторских курсивов. А в версии, имеющейся в Сети (HTML) все эти курсивы отсутствуют. В результате местами получается потеря смысла автора, видно однозначно.
Также несерьезный аргумент "что скучно". Инструкции всегда скучно читать, а техн. статья от Выполнившего OCR как раз инструкция тому, кто будет что-нибудь делать с версией. Ему надо облегчить жизнь. Причем каждая отдельная версия может потом использоваться по-отдельности, поэтому и инструкции, конечно, повторяются. Да и что за детский сад - "скучно"? Главное в инструкциях необходимость, а не веселье. Прочел инструкция, учел, если что-то делаешь, и более не читаешь.
Ведь пройдет год, и сам забудешь, что делал когда-то с версией, не говоря уже о возможности многих лет ее жизни в Сети.
Насчет же двух считываний - я указываю, как должно быть в идеале, ибо, несмотря на все старания, за один раз полностью очистить так, как были ранее книги, никому не удастся. Уж это точно, на своем опыте вижу, да и на чужом тоже (причем у меня ошибок, как правило, меньше). Будет ли кто делать как я или нет (два раза считывать то, что стоит того) - меня не волнует. Главное - указать, как должно быть, а не оправдывать полукустарщину многочисленными несерьезными словами. И вообще - цель "Правил-2005"  облегчить жизнь начинающим и указать, как должно быть в идеале, а вовсе не набор навыков для тех, кому надо "скорей-скорей" и полегче. Слава Богу, что, судя по Форуму, кто-то обращается к ним с серьезными намерениями, чтобы запечатлеть в эл. виде важные для него произведения, а не проходящее чтиво. Для них и писал, хотя, конечно, хорошо бы было, чтобы нигде ошибок не было.
Готье Неимущий
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать