Novice писал(а) 30.07.2006 :: 10:11:28:Онлайн OCR-вычитка -- это прежде всего проект "Гутенберг".
http://pgdp.net. Английский. Зарегистрируйтесь и посмотрите.
Интерес там представляет практика и последовательность обработки: 1 юзер там по сути не считается авторитетом, вот если 2 и больше грамотных юзера сходятся во мнении, то оно и становится авторитетным (я имею в виду корректуру). У нас же -- пока каждый сам по себе.
Этот проект я, конечно, знаю. Вы упомянули о "сайтах" во множественном числе. Существуют ли другие вам известные примеры? А то заинтриговали, а ссылок - одна.
Цитата:Насчет транспортного: его отличие от архивов с ихними diz'ами. По сети могут передаваться не только файлы, но и информация. Вот и попробуй передать в современном архиве информацию, воспринимаемую без ручного парсинга _всеми_ любительскими программами-библиотекарями да и сайтами тоже с помощью _одного_ шаблона.
Уже в древнем стандарте HTML были предусмотрены "мета" поля с указаниямия "автор", "содержание", "название" и прочая. Чтоб роботы индексаторы и прочие каталогизаторы знали куда смотреть. Я так понимаю, вы агитируете за XML, который в этом смысле конечно помощнее. Программы-библиотекари мне плохо известны, я ими не пользуюсь (из-за вечных сложностей с многоязычием на моем компе, в том числе).
Цитата:Транспортный формат обязан быть нацелен на передачу информации. Текст книги -- частный случай. Исправления к тексту -- тоже частный случай. Совсем не обязательно, чтобы пересылался весь исправленный текст, а вот список очепяток пересылать надо и здесь есть по сути два варианта -- либо уникальный фрагмент текста в книге предлагается заменить на исправленный с поддержкой стандартных регулярных выражений, либо текст идет уже отформатированным по жестким стандартам, например fb2, и можно указывать физическое размещение исправляемого текста -- абзац/элемент такой-то, символ номер такой-то заменить на то-то; первый вариант более универсален, но тоже требует от программы управления библиотекой понятия, что это и есть список очепяток. Вот как раз разрешения вопросов по интерпретации списка прикрепленных файлов и информации и надо ждать.
Насчет исправлений текста, это конечно интересно - для автора более-менее серьезной и более-менее стабильной онлайн библиотеки, которую более-менее все склонны признавать за источник циркулирующего файла. Но куда писать, если файл хаотически распространяется по инету в кучах разных разгильдяйских библиОтек? Вот я сейчас правлю файл и знаю, что мне не удастся полностью усмотреть все ошибки, поэтому сгоряча выложила часть на вики - была идея: указать в шапке файла адрес вики и каждый скачавший-почитавший сможет прийти и добавить поправки, постепенно доводя текст до совершенства. Но! Ведь файл будет распространяться через ИРКу, а там две дюжины серверов, которые друг у друга копируют, и хотя местонахождение серверов едино (пара каналов) и они более-менее скоординированны, однако очевидно, что это совершенно невозможная система в сочетании с вики. Система постепенной вычитки пользователями имеет смысл *только* в условиях строгой централизации и *единичности* источника/местонахождения файла.
Впрочем, спасибо за подробное разъяснение термина: буду знать
Цитата:Наиболее известный пример транспортного формата -- это email, хотя там нет описания файлов, а только указания их типа.
Наверняка есть некий ISO-стандарт на обмен между библиотеками библиографической информацией по стандартам MARC. Там, в этом MARC, кстати, >900 полей.
Такой стандарт, что ли? (смотрите прикрепленный файл, это на ИРКе кто-то старался осознать)
(хм, че-то не позволяют мне файл прикреплять тут, ну тада берите здесь
http://lesnik.nm.ru/QC-MD02.doc)
Цитата:Реализация вообще проекта как можно заметить требует достаточно мощного центр.сервера либо придется данный сервер использовать как переопределяющим запрос на один спец. серверов. Причина: на данный момент доступно по моим оценкам около 1 млн. произведений (не публикаций! -- их во много раз меньше) только худ.литературы. Реализация сервера способного справиться с большим кол-вом запросов к такому каталогу вещь весьма дорогостоящая.
Не поняла: это все "доступно" где конкретно? Во всем рунете? И как вы такую статистику реализовали? По-моему, в интернете центролизованность вообще не очень катит. Проекты часто закрываются по самым разным причинам (раньше они были гл.образом финансовые, сейчас прибавились еще и юридические) - и все что на них было пропадает вчистую - если это не было размножено в других местах. Был такой интересный проект: Общий Текст. Хотелось бы узнать куда он делся, очень жалею о нем.
Цитата:Реализация серверов архивов гораздо менее требовательная задача, т.к. обращений к ним со стороны читателей не будет, за исключением запросов на произведений не пользующихся спросом, которые хранить в постоянном доступе в цифр. библиотеках нерентабельно.
Вот этого я не понимаю. А кто ж будет поддерживать сервер, который никому не нужен? Это же психологически очень трудно
Остальное не обсуждаю, некомпетентна.