Gautier Цитата:К тому же, думаю, что если ты сам опишешь все, что делаешь, вряд ли будет меньше.
Напишу когда-нибудь... Ну уж меньше и не так подробно. Для новичков это сложно...
Цитата:3. Насчет трафика и по DJVU - ты просмотрел, поскольку я уже написал в "Правилах", что этого вопроса и коммерческих интересов сайтов не касаюсь (насчет посещаемости и т.п.).
А в него все упирается... Я лично не качаю те djvu, которые в txt будут меньше по объему.
Я качаю только то, что в txt непредставимо - про головоломки или фокусы например...
Цитата:Видел как-то твой "малый" RTF и очень удивился, как ты сумел вставить туда рисунок-фото автора с нормальным качеством (не помню книгу). Наверное, модифицировал какую-то программу. В широкое пользование надо бы метод; в особенности важны таблицы в «малых» RTF.
ЖЗЛ с такими фото делал...
Ничего необычного - любые картинки (полутон/цветные) я сканирую отдельно в 300 dpi, потом конверчу через IrfanView или PaintShopPro (если с доп.коррекциями) в размер 500 точек по высоте. Такие картинки сойдут для htm/chm версий, если кто-то захочет сделать. А в Ворде, вставляя картинку, указываю масштаб увеличения примерно 700% - и в doc тоже все прекрасно смотрится. Т.е для экранной копии это вполне сойдет. Потом сохраняю в rtf и преобразую его в малый через Atlantis.
Цитата:5. Насчет курсива: ты зачем тенденциозно вырвал из контекста? Там имелась в виду классич. худ. лит-ра; приводился пример с Чеховым. А вовсе не проходящая беллетристика.
На что вам курсив? К примеру, программа голосового чтения его как-то по-другому прочтет?
Цитата:6. Насчет DJVU классики - совсем не смешно. Ты снова вырвал из контекста, и это вновь нехорошо. Там говорилось, что если кто желает один раз в жизни взять собрание сочинений, скажем, Достоевского или Диккенса без ошибок, то оторвется от своего "рваного модема" и возьмет в Интернет-кафе. Не так уж и дорого.
Хм... Библиофилы больше будут ценить какую-то djvu версию текста, нежели реальную бумажную книгу позапрошлого века? Сомневаюсь...
А для эл.текстов и небиблиофилов такие djvu-книги не нужны - им что попроще - txt/doc...
А ошибки... Да их в djvu версии будет больше чем в бумажной.
Цитата:7. Где "глава без названия", а где логический отступ - субъективизм. И я видел, как одна редакция делает просто отступ, а другая для того же текста дает "звездочки". Но последние помогают это найти в электр. версии, отступ же твой логический если что может потеряться. Поэтому даже если ты и прав, все равно надо помечать чем-то кроме отступа.
Я в некоторых книгах видел и подразделение *** и пустыми строками на одной странице книги. Поэтому считаю это разным подразделением.
Цитата:Называть же ерундой то, что облегчит последующую работу другим с твоей версией, кажется по крайней мере странным.
Ну, когда в разных текстах одна и та же длинная вводная статья рассказывает о том, что там сделал какой-то OCRщик, то это надоедает...
Цитата:Буквы с ударениями и особые буквы все-таки делать надо,
Кто-то цитировать-ссылаться начнет.
А докторскую диссертацию за просто так им не надо написать?
"
Я не издатель книг, я нарушаю чьи-то авторские права, я за это (за OCR) не получаю никаких доходов, я слишком занят чтобы по 10 раз (образно говоря) вычитывать, скажите спасибо что я отсканировал книгу, и т.д. в том же духе..." - так ответит подавляющее большинство OCRщиков и "OCRщиков".
Слишком большие требования не надо ставить любителям OCR книг. Сложно что-то требовать от простых читателей, которые ради интереса сканируют книги для других. Кто-то лучше, кто-то хуже. Вторых все равно будет больше. Ну не основная это работа у людей - сканировать и вычитывать книги!
У кого есть совесть, тот будет лучше вычитывать. Но уж раз меня на 2 вычитки не тянет, то что говорить о новичках, которым надо что попроще и побыстрее, пока они войдут в ритм, наберутся опыта, понаступают на грабли или у них проснется совесть...
Цитата:Конечно, все это, вновь, не к беллетристике относится.
Ну... если всё, что написано в Methods_OCR_2005.doc, относится только к "правильной" литературе, то непонятно для кого это вообще написано... Для 2-3 человек из 100, считающих научно-популярную литературу выше фантастики с детективами?
Большинство все же сканирует популярную литературу (пользующуюся большим спросом), а не научную... А те кто сканирует научную или учебную просто-напросто ее не вычитывают или замусоривают текст номерами страниц для каких-то неизвестных цитировщиков...