OCR форум - Универсальная библиотечная программа (проект)

Выбор языка:

Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

Всем привет!
Hi all!

OCR форум › Электронные книги и библиотеки › Электронные библиотеки › Универсальная библиотечная программа (проект)

(Модератор: Dmitry7)

‹ Предыдущая тема | Следующая тема ›

Страниц: 1

Универсальная библиотечная программа (проект) (Прочитано 13319 раз)

Slawa-614

Активист

Вне Форума

Всем привет!

Сообщений: 380
Пол: male

Универсальная библиотечная программа (проект)
26.05.2006 :: 11:16:57

Универсальная библиотечная программа (проект)

Назначение

Универсальная библиотечная программа (УБП) содержит базу имеющихся книг в электронных библиотеках, которые согласились подключиться к этому проекту.

УБП (с базой) скачивается с любой из библиотек, участвующих в проекте, устанавливается на компьютер пользователя (один раз), позволяет найти нужную книгу по автору, жанру, сериалу, собственным пометкам и скачать ее.
При последующих запусках программа сначала скачивает с библиотек записи об очередных обновлений (с учетом новинок, замены, изъятий), после чего готова к работе.

Библиотекари, в свою очередь, вместе с индексным файлом очередных новинок должны готовить и файл дополнений для этой программы.

Состав

1. Модуль юзера: подключение к заданным эл.библиотекам; обновление собственной базы; поиск по автору, жанру, сериалу, пометкам (в своей базе); скачивание файла обновлений; скачивание (и распаковка) запрошенных книг; возможно - текстовый редактор (для чтения, печати и конвертации текстов).

2. Модуль библиотекаря: сканирование имеющихся файлов и формирование базы книг в заданном формате; формирование файла дополнений к базе (2 варианта, быстрый - путем чтения библиотечного index.html новинок, медленный - сканирование всех файлов и сопоставление текущего состояния "хранилища" с записанным в предыдущую базу).

Структура основной базы (возможно их будет несколько)

1. порядковый номер записи
2. название произведения
3. автор
4. соавтор
5. тип литературы
6. жанр (внутри типа)
7. поджанр
8. название файла
10. формат (txt, doc, djvu, pdf)
11. архиватор (или его отсутствие)
12. размер
13. дата последнего обновления (правки)
14. количество скачиваний - рейтинг (нужен???)
15. библиотека, где этот файл находится (название и тип - http/ftp)
16. абсолютный путь к файлу
17. актуальность (есть-нет-временно недоступен)
18. доступ (свободный, парольный)
19. анонс
20. что еще должно быть?

Примечание

Программ должна уметь подключать те или иные электронные библиотеки, пожелавшие принять участие в проекте. И отключать тех, кто решил выйти из проекта (или вовсе закрыл свой сайт).
У библиотекарей появляется еще одна обязанность - периодически формировать файл обновлений для юзеров.

Кроме того, для полукоммерческих библиотек появляется неприятный нюанс - юзер совсем не будет видеть баннеров и прочей рекламы. Подозреваю, что этот момент отвернет от проекта почти все крупные библиотеки. А в этом случае - если не пропадает, то сильно уменьшается смысл от всей затеи.

В принципе, в качестве тестовой (опытно-эксплуатационной) версии можно попробовать написать программ, настроенную только на одну библиотеку. Таким образом, владелец (дополняя текст новинок) сможет предлагать своим (и только своим) посетителям поисково-справочную программ, которая позволит найти (в офлайне) и скачать из его хранилища - любую книгу, которую обычными средствами искать очень долго.
А постоянным посетителям - бонус в виде доступа к закрытым хранилищам.

P.S. Чуть не забыл. Помимо согласия библиотекарей, пожелавших участвовать в проекте, желательно заручится и поддержкой программеров. Само собой, коммерческая выгода тут нулевая, зато программер (особенно начинающий) получит опыт в создании Интернет-приложений, который может пригодиться в дальнейшем.

Наверх

Slawa-614

IP записан

Vyacheslav_Sachkov

Постоялец

Вне Форума

Всем привет!

Сообщений: 129

Re: Универсальная библиотечная программа (проект)
Ответ #1 - 26.06.2006 :: 01:47:56

Не понял. Есть же BookSeer (http://www.msolt.chat.ru), который все это делает. Зачем изобретать велосипед? Ему только не хватает возможности работать в онлайне. Но соответствующую приблудку для этого разработчик М. Солтанович уже изобрел. Думаю, до конца года буксир станет полнофункциональным, т. е. одинаково работающий как офлайн, так и онлайн каталог.

Наверх

IP записан

Novice

Новичок

Вне Форума

Всем привет!

Сообщений: 18

Re: Универсальная библиотечная программа (проект)
Ответ #2 - 28.07.2006 :: 23:29:52

Вот кстати, есть сайт на коем было реализовано нечто подобное: http:/lib.align.ru.
Конечно, там собственно присутствует только сортировка по авторам, но вот обновление было предусмотрено с нескольких библиотек (только с др. библ. у них как-то не сложилось) и скачивание книг было без необходимости лезть на сайт. Я как-то упоминал о нем, но его обозвали третьеразрядной библиотекой не задумываясь об идее (ведь ее доработать можно было бы).

15-16 раздел вообще бы стоило видоизменить: уникальное имя и запрос выбросить на свободный поиск в первом доступном или приоритетных для юзера хранилищах. А-ля P2P.
Раздел соавтор я бы дополнил кодом соавтора: например, переводчик тоже является в некотором роде соавтором, соавтор может оказаться автором лит. записи книги и пр.
Я также предложил бы взять за основу при жанризации УДК. Доработать достаточно убогий на первый взгляд раздел 82 (худ.лит.) можно полностью в рамках данного каталогизатора.
И это... хотелось бы иметь транспортный формат. На худой конец и fb2 сойдет. Если делать обновление, то логично обновлять все форматы, не так ли? -- а это без понятия транспортно-обменного формата сделать сложно.
Насчет парольно-непарольного доступа хотелось бы сказать: лучше уж public domain и полузакрытый доступ для прочих при возникших разногласиях с правообладателями (для OCR-щиков, корректоров доступ к любому произведению естественно не может быть отключен по умолчанию). Также я бы добавил блокировку изменений при условии размещения непосредственно автором.
И говоря об обновлениях стоило бы припомнить о рейтингах ошибочности корректора. А также не забыть о необходимости сохранения старых версий в архивах -- я думаю, это понадобится.
Рейтинг произведения вообще-то нужен исключительно для определения места размещения произведения библиотекарем: с быстрым и медленным доступом.
И вообще -- говоря об заморочках с такими программами необходимо помнить, что ресурс должен иметь три уровня: серверный, клиент читателя и клиент OCR-щика. Пресловутый BookSeer это как раз клиент читателя, все остальное ему по сути не надо.
А в плане будущего -- хорошо бы привязаться к online OCR-программам или сайтам совместной вычитки.
О, забыл -- при пересылке произведений возможно использовать email. Ряду лиц это намного удобнее.
Кстати, тов. Slawa, ты наверно, будешь портировать свою базу в первую очередь?
И как успехи в агитации? Вадим с треском провалился 5 лет назад (ты тогда был увлечен, насколько я понимаю, файл-эхой). А сайтов-библиотек, которые ведут чисто OCR-щики, по пальцам можно пересчитать, да и не актуальные они. Пришла пора по сути создания единого проекта всех OCR-щиков по совместной работе в единых рамках, минуя современные библиотеки. Либо договориться с ними о разделении сфер работы. Вот примерно по такой схеме:

Читатель <=> Эл. библиотека <=> Сервер каталога <=> Серверы архивов <=> Сервер каталога <=> Сервер online-OCR + proofread <=> OCR-щик.

Это очень логичная схема: OCR-щики полностью уходят от разборок с правообладателями (судиться и вообще разговаривать с ними лучше крупной МЭБС -- межэлектроннобиблиотечной системе, а отдельным прутикам там делать нечего). Мы же получаем от них актуальные запросы по оцифровке и распределяем их между собой помимо своих планов.
Это конечно, сложнее, чем ты хочешь, но это именно то, что и будет нужно всем нам в ближайшие 2-3 года.

Наверх

IP записан

primus

Новичок

Вне Форума

Всем привет!

Сообщений: 38

Re: Универсальная библиотечная программа (проект)
Ответ #3 - 29.07.2006 :: 02:15:59

У меня два вопроса не по теме:

1) Что такое "транспортный формат"? (и соответственно какие форматы "нетранспортные")

//транспортный формат. На худой конец и fb2 сойдет. Если делать обновление, то логично обновлять все форматы, не так ли? -- а это без понятия транспортно-обменного формата сделать сложно.//

2) Где можно посмотреть сайты ОСR-онлайн и сайты совместной вычитки? Очень интересно.

Наверх

IP записан

Vyacheslav_Sachkov

Постоялец

Вне Форума

Всем привет!

Сообщений: 129

Re: Универсальная библиотечная программа (проект)
Ответ #4 - 29.07.2006 :: 04:46:57

Все из сказанного Вами может быть обсуждаемо. К тому это настолько серьезные вопросы, что горячка совершенно ни к чему. За исключением того, что мы с Вами сошлись в пункте, что буксир - идеальный клиент для пользователя.

Наверх

IP записан

Novice

Новичок

Вне Форума

Всем привет!

Сообщений: 18

Re: Универсальная библиотечная программа (проект)
Ответ #5 - 30.07.2006 :: 10:11:28

Онлайн OCR-вычитка -- это прежде всего проект "Гутенберг".
http://pgdp.net. Английский. Зарегистрируйтесь и посмотрите.
Интерес там представляет практика и последовательность обработки: 1 юзер там по сути не считается авторитетом, вот если 2 и больше грамотных юзера сходятся во мнении, то оно и становится авторитетным (я имею в виду корректуру). У нас же -- пока каждый сам по себе.

Насчет транспортного: его отличие от архивов с ихними diz'ами. По сети могут передаваться не только файлы, но и информация. Вот и попробуй передать в современном архиве информацию, воспринимаемую без ручного парсинга _всеми_ любительскими программами-библиотекарями да и сайтами тоже с помощью _одного_ шаблона.
Транспортный формат обязан быть нацелен на передачу информации. Текст книги -- частный случай. Исправления к тексту -- тоже частный случай. Совсем не обязательно, чтобы пересылался весь исправленный текст, а вот список очепяток пересылать надо и здесь есть по сути два варианта -- либо уникальный фрагмент текста в книге предлагается заменить на исправленный с поддержкой стандартных регулярных выражений, либо текст идет уже отформатированным по жестким стандартам, например fb2, и можно указывать физическое размещение исправляемого текста -- абзац/элемент такой-то, символ номер такой-то заменить на то-то; первый вариант более универсален, но тоже требует от программы управления библиотекой понятия, что это и есть список очепяток. Вот как раз разрешения вопросов по интерпретации списка прикрепленных файлов и информации и надо ждать. Наиболее известный пример транспортного формата -- это email, хотя там нет описания файлов, а только указания их типа.
Наверняка есть некий ISO-стандарт на обмен между библиотеками библиографической информацией по стандартам MARC. Там, в этом MARC, кстати, >900 полей.

Наиболее логично совместить библиографическую информацию с каталогом "Сервера каталога". На конкретной библиотеке вполне может урезанный вариант: список публикаций с дешифровкой их содержания. Практически все читатели обычных библиотек как раз с таким уровнем и работают. Да и для цифровых библиотек нечто большее требуется лишь одному из 1000.
Вот к примеру, примерная схема таблиц библиограф. БД:

Расширенная информация об авторах (опционально) <=> АВТОРЫ <=> Список авторов произведения <=> ПРОИЗВЕДЕНИЕ <=> Содержание публикации <=> ПУБЛИКАЦИИ <=> Расширенная информация о публикации (опционально)

Выборкой из этой БД цифр.библиотеки будут строить свои каталоги по схеме:

ПУБЛИКАЦИИ <=> Содержание публикации.

Схема, естественно, для самых простых библиотек, впрочем каталоги совр. цифр. библиотек не отличаются от нее, только в некоторых добавлена дополнительная информация об авторе.

Реализация вообще проекта как можно заметить требует достаточно мощного центр.сервера либо придется данный сервер использовать как переопределяющим запрос на один спец. серверов. Причина: на данный момент доступно по моим оценкам около 1 млн. произведений (не публикаций! -- их во много раз меньше) только худ.литературы. Реализация сервера способного справиться с большим кол-вом запросов к такому каталогу вещь весьма дорогостоящая.
Реализация серверов архивов гораздо менее требовательная задача, т.к. обращений к ним со стороны читателей не будет, за исключением запросов на произведений не пользующихся спросом, которые хранить в постоянном доступе в цифр. библиотеках нерентабельно.

Наверх

IP записан

primus

Новичок

Вне Форума

Всем привет!

Сообщений: 38

Re: Универсальная библиотечная программа (проект)
Ответ #6 - 30.07.2006 :: 21:59:06

Novice писал(а) 30.07.2006 :: 10:11:28:

Этот проект я, конечно, знаю. Вы упомянули о "сайтах" во множественном числе. Существуют ли другие вам известные примеры? А то заинтриговали, а ссылок - одна.

Цитата:

Насчет транспортного: его отличие от архивов с ихними diz'ами. По сети могут передаваться не только файлы, но и информация. Вот и попробуй передать в современном архиве информацию, воспринимаемую без ручного парсинга _всеми_ любительскими программами-библиотекарями да и сайтами тоже с помощью _одного_ шаблона.

Уже в древнем стандарте HTML были предусмотрены "мета" поля с указаниямия "автор", "содержание", "название" и прочая. Чтоб роботы индексаторы и прочие каталогизаторы знали куда смотреть. Я так понимаю, вы агитируете за XML, который в этом смысле конечно помощнее. Программы-библиотекари мне плохо известны, я ими не пользуюсь (из-за вечных сложностей с многоязычием на моем компе, в том числе).

Цитата:

Транспортный формат обязан быть нацелен на передачу информации. Текст книги -- частный случай. Исправления к тексту -- тоже частный случай. Совсем не обязательно, чтобы пересылался весь исправленный текст, а вот список очепяток пересылать надо и здесь есть по сути два варианта -- либо уникальный фрагмент текста в книге предлагается заменить на исправленный с поддержкой стандартных регулярных выражений, либо текст идет уже отформатированным по жестким стандартам, например fb2, и можно указывать физическое размещение исправляемого текста -- абзац/элемент такой-то, символ номер такой-то заменить на то-то; первый вариант более универсален, но тоже требует от программы управления библиотекой понятия, что это и есть список очепяток. Вот как раз разрешения вопросов по интерпретации списка прикрепленных файлов и информации и надо ждать.

Насчет исправлений текста, это конечно интересно - для автора более-менее серьезной и более-менее стабильной онлайн библиотеки, которую более-менее все склонны признавать за источник циркулирующего файла. Но куда писать, если файл хаотически распространяется по инету в кучах разных разгильдяйских библиОтек? Вот я сейчас правлю файл и знаю, что мне не удастся полностью усмотреть все ошибки, поэтому сгоряча выложила часть на вики - была идея: указать в шапке файла адрес вики и каждый скачавший-почитавший сможет прийти и добавить поправки, постепенно доводя текст до совершенства. Но! Ведь файл будет распространяться через ИРКу, а там две дюжины серверов, которые друг у друга копируют, и хотя местонахождение серверов едино (пара каналов) и они более-менее скоординированны, однако очевидно, что это совершенно невозможная система в сочетании с вики. Система постепенной вычитки пользователями имеет смысл *только* в условиях строгой централизации и *единичности* источника/местонахождения файла.

Впрочем, спасибо за подробное разъяснение термина: буду знать

Цитата:

Наиболее известный пример транспортного формата -- это email, хотя там нет описания файлов, а только указания их типа.
Наверняка есть некий ISO-стандарт на обмен между библиотеками библиографической информацией по стандартам MARC. Там, в этом MARC, кстати, >900 полей.

Такой стандарт, что ли? (смотрите прикрепленный файл, это на ИРКе кто-то старался осознать)
(хм, че-то не позволяют мне файл прикреплять тут, ну тада берите здесь http://lesnik.nm.ru/QC-MD02.doc)

Цитата:

Реализация вообще проекта как можно заметить требует достаточно мощного центр.сервера либо придется данный сервер использовать как переопределяющим запрос на один спец. серверов. Причина: на данный момент доступно по моим оценкам около 1 млн. произведений (не публикаций! -- их во много раз меньше) только худ.литературы. Реализация сервера способного справиться с большим кол-вом запросов к такому каталогу вещь весьма дорогостоящая.

Не поняла: это все "доступно" где конкретно? Во всем рунете? И как вы такую статистику реализовали? По-моему, в интернете центролизованность вообще не очень катит. Проекты часто закрываются по самым разным причинам (раньше они были гл.образом финансовые, сейчас прибавились еще и юридические) - и все что на них было пропадает вчистую - если это не было размножено в других местах. Был такой интересный проект: Общий Текст. Хотелось бы узнать куда он делся, очень жалею о нем.

Цитата:

Реализация серверов архивов гораздо менее требовательная задача, т.к. обращений к ним со стороны читателей не будет, за исключением запросов на произведений не пользующихся спросом, которые хранить в постоянном доступе в цифр. библиотеках нерентабельно.

Вот этого я не понимаю. А кто ж будет поддерживать сервер, который никому не нужен? Это же психологически очень трудно

Остальное не обсуждаю, некомпетентна.

Наверх

IP записан

Novice

Новичок

Вне Форума

Всем привет!

Сообщений: 18

Re: Универсальная библиотечная программа (проект)
Ответ #7 - 31.07.2006 :: 01:49:28

primus, вот мысли насчет поддержки. Вы никогда не задумывались, где все это висит и сколько стоит оплата?
Ведь виртуальный сервер чаще всего имеет ограничение по выделенным процессам, обычно такие сведения на хостингах редко указывают, например, valuehost даёт одновременно на своих серверах открыть для одного сайта не более 25 одновременных процессов, читай -- это где-то 10-12 пользователей. Конечно, реально необходимо оперировать более длительными промежутками времени, т.к. запросы от разных пользователей распределяются во времени, но реальна поддержка одновременной работы ~250 подключений, большее количество уже значительно увеличит время ожидания ответа сервера, что может раздражать Вас. На превый взгляд это много, т.к. полазив по сайтам библиотек можно узреть из статистики, что одновременно может на сайте болтатеся в лучшем случае 50 юзеров. Можно найти и с большим количеством процессов, но при этом и плата растёт в разы (до 10 и более раз). Для крупных баз данных единственной панацеей является выделенные сервера, причем для надежной работы необходимо иметь резервный дублирующий сайт. Предлагается же аренда серверов от 80 у.е. в месяц (это нечто вроде современного стандартного офисного компутера), реально же нужно ориентироваться на гораздо более мощную и дорогую технику. Я, например, оцениваю минимально необходимые траты для создания единого прожекта порядка 20000 - 30000 рублей в месяц. По одной причине: здесь нужно добрых 10-15 виртуальных и выделенных серверов для обеспечения бесперебойной работы. Вешать на один сервер все нецелесообразно, нужно для начала как минимум 2.

Конечно, вы можете сказать, что сайт Мошкова крутится на меньших требованиях, но это уже сейчас менее 5% доступного объёма. И будет еще меньше. Реально сейчас нужно проектировать под 10Гб (в архивах) активно пользующегося спросом контента и 100Гб пользующегося редким спросом.

Что тут можно дешевого предложить? Нечто вроде FTP-mail + огр. рассылка. Т.е. в рассылку брякается все новое, которое и складируется у подписчиков, а также на наборе из 10-20 дешевых серверов по некоторым жестко определенным принципам, а читатель работает с языком аналогичным FTP-Mail. Скорость ответа конечно будет мизерной. Зато и требования к серверам архивов минимальны, т.к. от них будет требоваться только передать файл/листинг на сайт обработки запроса Lib-Mail.

К сожалению, хостеры типа PeterHost, предлагающие избытки дискового пространства на своих серверах для создания простющих статичных сайтов за копейки (150руб. за 15 Гб в месяц) мало подходят для хранения архивов именно из-за простоты, т.к. защитить их от сободного доступа (что к сожалению будет требоваться) невозможно.
Впрочем, сразу говорю, что я не специалист по данным вопросам и по оценке нагрузки, и такие мысли у меня появились после ознакомления с FAQ-ми по хостингу.

В общем-то, проблема единой базы не только в создании единого каталога, но и в обвязке его железом.
И вот здесь, звиняюсь, полезет крамольная мысль: не отдать ли это все на откуп профессионалам? Ведь платный доступ для он для конкретного лица подешевле будет, загвоздка лишь в том, чтобы нас пустили как участников процесса, имеющих ряд преимуществ, чего не наблюдается. Да еще в проблеме наступающего ну не монополизма, но реального картельного сговора. Поэтому и лезут всем мысли об отдельном независимом процессе _вне_ этих структур. Вынуждено. Просто деваться некуда.

Наверх

IP записан

primus

Новичок

Вне Форума

Всем привет!

Сообщений: 38

Re: Универсальная библиотечная программа (проект)
Ответ #8 - 31.07.2006 :: 22:06:16

На мои скромные вопросы вы так и не успели ответить. Ну ладно

Что касается стоимости долгосрочного содержания активного библиотечного проекта, то для меня всегда было загадкой, откуда вообще у людей деньги на это берутся. Смутно подозреваю, что тут срабатывает синдром хоббиста: как вело- или авто- любитель часто готов маму родную продать для покупки всяческого "крайне необходимого" оборудования, так и сетевой библиотекарь тащит невероятные суммы из собственного кормана для поддержания совершенно бесприбыльного проекта. Конечно, на каком-то этапе развития уже нужен либо достаточно глубокий корман, либо помощь от ангелов небесных (Мошкову на таком переломном этапе добрые дяди дали бесплатный хостинг и связь вроде тоже бесплатную - не помню подробностей, но сам факт характерный). А если говорить о каких-то далеко-идущих мега-проектах с высокой посещаемостью, то тут банально нужно хоть какое-то постоянное финансирование, т.е. это уже далеко выходит за рамки просто хобби.

Честно говоря, я не очень представляю, чего и от кого конкретно вы хотите добиться. И зачем вообще заводить речь о бесплатных хостингах? Они по определению не предназначены для больших проектов. Я так понимаю, мы сейчас общаемся через сервер Мошкова - и библиотеку Ершова туда перевели (как и кучу других либ) как раз после получения миллионного гранта от министерства печати (или культуры, опять не помню)? Или раньше? В общем, кто-то где-то за всю эту кучу бесплатной литературы однажды выложил деньгу.

Сейчас порылась в дебрях проекта Гутенберг, чтоб обьяснить себе ускоряющееся развитие их проекта. Оказывается, они наконец инкорпорировались в 2000 году в Штатах как бесприбыльная организация, чтоб иметь возможность официально получать даяния. Ну и самое главное: они хостятся на университетских серверах, а сами тот универсистетский проект поддерживается корпорациями типа IBM. Более того: американский гутенберг поддерживает свои европейские и австралийские филиалы (европейский хостится в Югославии, между прочим). В общем и целом, я думаю, что после того как кто-то оплатил железо и трафик, самая большая статья расходов (или трата личного времени) это координирование и поддержание существующей структуры организации.

Кстати: на таком уровне уже нельзя обходить законы и мухлевать - а то закроют - и весь этот пчелиный труд даром пропадет.

Наверх

IP записан

Страниц: 1

‹ Предыдущая тема | Следующая тема ›

« Главная

‹ Раздел

Наверх этой страницы