OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
МБС - перспективы и возможности (Прочитано 11586 раз)
Avalone
Новичок
*
Вне Форума


Всем привет!

Сообщений: 3
МБС - перспективы и возможности
10.12.2005 :: 13:21:11
 
В предыдущей теме уже много спорили по поводу нужно или не нужно встравивать данные на книгу (Серия, Ориг название, Автор, номер в серии, версия, аннотация к книге) внуть самого файла.

Существует ISBN... + его расширения (Amazon)
Есть онлайновая БД по нему...
Соответственно, есть предложение, внутрь файлов (текстовых, RTF, FB2) встраивать строчку вида RusISBN (уникальный идентификатор книги/издания) и версию.
Остальные данные (Серия, Ориг название, Автор, номер в серии, аннотация к книге) желательна, но уже не критична... т.к. для организации локальной Библиотеки вполне возможно пройдясь по файлам скачать данные с БД RusISBN (протокол общения с и-нет БД я думаю не критичен - *MARC или Z39.50 или собственный скрипт выкачивающий данные из БД.

Структура должна быть стандартизированна (за основу можно взять описание FB2/3 формата).
Наполнение данной БД должно также быть возможно не только по появлению электронной версии книги, но и по оффлайновым книгам.
Просто очень неудобно копаться в многочисленных библиографических сайтах при попытке найти информацию по книге при внесении ее в локальный каталог... а в данном случае данная информация может быть использованна в дальнейшем многими другими людьми.

Хранение информации в отдельном файле внутри архива с книгой - не очень верное решение (на мой взгляд), но в данном случае тоже возможное [если кто нибудь будет заинтересован в переводе онлайн БД записи по книге в формат .bbs или .diz]...
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1076
Россия
Пол: male
Re: МБС - перспективы и возможности
Ответ #1 - 10.12.2005 :: 18:29:32
 
Как быть с файлами DJVU?
Как быть с самиздатом?
Наверх
 
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: МБС - перспективы и возможности
Ответ #2 - 10.12.2005 :: 22:07:38
 
как быть с книгами до 88 года издания, когда ISBN еще не был возведен в ГОСТ? Подмигивание
Наверх
 
WWW 67730822  
IP записан
 
Avalone
Новичок
*
Вне Форума


Всем привет!

Сообщений: 3
Re: МБС - перспективы и возможности
Ответ #3 - 11.12.2005 :: 08:56:15
 
Судя по переходу с 2007 года на 13ти значную ISBN, можно уже сейчас привязать книги к ней... какие из номеров - это можно будет решить... есть вариант - стандартный префикс 5 (стандартный префикс, 2 цифры из которого могут использоваться под _Издательство_) + 2 цифры года + 5ти значный номер + контрольная цифра (1) [в соответствии со стандартом]. После можно будет сделать отдельную таблицу с соответствием _исправленного_ (если этот номер будет  исправляться) и текущего значения.

Самиздат - отдельный номер как издателя (2 знака)... + сквозная нумерация по мере поступления.

DJVU - умеет сохранять текстовую информацию, программа каталогизатор будет иметь возможность найти строку вида eISBN:_номер_
по поводу вставки номера версии... есть идея проверять checksum... для создания таблицы соответствия checksum и версии... но в свете *любви* многих к изменению форматирования без исправления собственно содержания это может служить только добавочным способом для определения версии.
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: МБС - перспективы и возможности
Ответ #4 - 11.12.2005 :: 22:00:02
 
70 000 (примерно где-то так?) доступных единиц хранения присвоить/проверить ISBN - нереально.

Дело может сдвинуться, если придут деньги.
Энтузиасты будут лепить всяк по своему.
Наверх
 
WWW 67730822  
IP записан
 
Avalone
Новичок
*
Вне Форума


Всем привет!

Сообщений: 3
Re: МБС - перспективы и возможности
Ответ #5 - 11.12.2005 :: 22:32:44
 
>>70 000 (примерно где-то так?) доступных единиц хранения присвоить/проверить ISBN - нереально.
70000/ 100 (оценочное количество активных человек-инет-библиофилов = 700 книг * 1.5 (кооф наложения интересов) ~ 1000 книг.

Тем более что основные (наиболее интересующие большое кол-во человек) могут быть сделаны в начале и их кстати не так уж и много ~ 1-3 тысячи наименований...

В общем, судя по ответам на FB форуме, надо делать базу и веб морду к ней...
попробую набить ее имеющимися на FB книгами (хотя бы с таго же самого FB_Libririan)

Процесс этот явно будет не быстрым в связи с загруженностью на работе... но на новогоднию праздники думаю что-нибудь сделаю.

На неделе попробую обработать инфу по ISBN нумерации...
Хотелось бы он народа услышать оценочное кол-во авторов/издательств/книг-у-автора для решения об разбивкe 13 значного кода на группы (eISBN)

>>Дело может сдвинуться, если придут деньги.
Будем надеяться на лучшее... если база будет, НАМНОГО легче будет следить за выходом книг (даже несмотря на отсутствие самих текстов книг в базе) + сортировка локальных баз сильно облегчится... + очень сильно надеюсь что можно будет прикрутить обменник/заказ_на_скан_ОЦР к этой базе...

Для примера - канал Буукз - порядка 20 книг в день из них ~12 вычитка/реформаты и у народа плодятся по 3-4 копии одних произведений но разных версий/названий... искать - очень тяжело, слава богу номер версии вынесен в заголовок... но пока найдешь, какая из них самая новая, да еще не дай бог она не в *удобном* формате (я например предпочитаю .rtf)
Наверх
 
 
IP записан
 
Alexey
Новичок
*
Вне Форума


Всем привет!

Сообщений: 22
Re: МБС - перспективы и возможности
Ответ #6 - 20.12.2005 :: 22:09:14
 
Еще раз извиняюсь за пропажу.
Так, затравка вроде бы нашла энтузиастов (сам-то я только на bat-файлы да на скрипты некоторые способен). Ну что ж, надо пустить в бой тяжелую советскую артиллерию каталогизации: обнародовать УДК (общие таблицы) и ББК (на данный момент 1978 года, тоже общие таблицы; пытаюсь разжиться общими табл. 1997 года - а может есть у кого?). На следующей неделе можете ждать прибытия файлов... А товарищу Авалону рекомендую след. унифицированную схему: произведение - версия - версия на конкр. языке/грамматике - техн.редакция - публикация. Хотя сия схема и не способна поглотить двойные/тройные/... переводы (возможно, через указатель original/translate и ссылочный на техн. редакции на оригинальном языке), но таковые попадаются редко. Собственно и схема индекса должна строиться в том же ключе: скажем {UDC/BBC}-RU-xx...-xx...-RU-xx...-xx...-xx... Резервируем заодно спец. коды, например для вызова последней версии/редакции, запроса списка произведений по данному разделу (список можете продолжить). А ISBN предназначен для издателей. Не беретесь же вы всерьез зарегистрироваться как издатель. Книги же с их ISBN-ом попадают в последнюю графу - т.к. для нас они являются одним из источников. В схеме я исхожу из принципа, что версии (в т.ч. и грамматические) тоже могут заинтересовать отдельных читателей. А ставить номер и собственно хранить редакции надо для сохранения возможности отката при злонамеренном или ошибочном искажении.
Еще надо учесть, что набор авторов для разных версий может отличаться. Для авторов для предупреждения спорных вопросов необходимо ставить страну/город/даты (например, через пресловутый FB2 к А.И.Абрамову причислили какой-то современный роман фэнтези, список глюков регистрации только по ФИО можно продолжить). Источник произведения должен описываться в техн.редакции, т.к. к более высоким уровням никакого отношения не имеет; при описании версии на конкретном языке для переводов надо указать ссылку на техн. редакцию на оригинальном языке (собственно, перед этим ее надо запротоколировать).
Подождем критического резюме и дополнений...
И вообще-то, надо подумать об обменном формате техн. электронных редакций - публикации могут жить в том формате, в каком им заблагорассудится, а вот с редакциями, если мы хотим иметь возможность автоматиз. обработки, такой номер не пройдет...
Наверх
 
 
IP записан
 
IG
Новичок
*
Вне Форума


Всем привет!

Сообщений: 21
Ярославль
Пол: male
Re: МБС - перспективы и возможности
Ответ #7 - 15.01.2006 :: 06:32:13
 
Кстати, если уж заниматься каталогизацией екниг с возможностью учёта версий, то можно сразу всё описание поделить на 2 части: описание бумажного издания, и описание его электронного воплощения. Описание первого, в принципе, стандартизировано, хоть и иногда мудрёно. Чтобы создать уникальное описание бумажного издания надо только изучить стандарты. (Ну, или для начала, НАЙТИ их Улыбка) После чего надоот теорий вернуться к реальной жизни, и придумать, что делать с тем добром, для которого потеряно описание оригинала, и поля надо заполнять с точностью +-километр. Улыбка

Но вопрос стоит в том, что на библиографическое описание надо нахлобучить ещё описание электронной версии. Коих с одной и той же книги можно снять сколько угодно, а потом ещё и редактировать-плодить версии. И тут уже библиография не поможет, надо думать. Навскидку для электронной версии неплохо бы знать:
формат,
подробности формата (напр, разрешение/цветность и прочая куча параметров для сканов, кодировка для текстов...)
кто цифровал (необязательно, в своб. форме, напр псевдоним),
привязка к файлу/файлам (напр. имя и CRC, очень надо если инфа сможет путешествовать отдельно от файла)
версия (текущая)
создана на основе версии (можно построить "дерево" версий)
плюс надо учесть, что цифра может быть не полной копией бумажки, а только её части (легко). Или содержать одновременно не одну а несколько бумажек (бывает). Или несколько частей разных бумажек Улыбка но это уже изврат, который проще рассматривать не как копию оригинала, а обозвать авторским самиздатом-компиляцией.

Ну, и о реальной жизни опять забывать нельзя, посему надо снабдить все форматы хранения и передачи "любительской библиографии" (о! термин придумал!) полем для "прочих комментариев", куда можно будет вписать то что не уложится в шаблон...
Наверх
 
 
IP записан
 
IG
Новичок
*
Вне Форума


Всем привет!

Сообщений: 21
Ярославль
Пол: male
Re: МБС - перспективы и возможности
Ответ #8 - 15.01.2006 :: 06:42:05
 
Avalone писал(а) 11.12.2005 :: 08:56:15:
Самиздат - отдельный номер как издателя (2 знака)... + сквозная нумерация по мере поступления.

Если делается ОДНА электронная библиотека-так делать можно.
Если делается система позволяющая завести несколько электронных библиотек, отдельно пополнять каждую и легко перекидываться книгами между ними, то так нельзя. Потому как дублироваться будут идентификаторы, что не есть гуд.

Если есть желание присвоить книге уникальный идентификатор, причём в нецентрализованой системе, где нельзя точно сказать, занят идентификатор или нет, то нужен алгоритм случайной генерации по многим факторам, с ничтожной вероятностью коллизий.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать