OCR форум - Каталогизация книг, статей домашней библиотеки

Выбор языка:

Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

Всем привет!
Hi all!

OCR форум › Разное › Флейм › Каталогизация книг, статей домашней библиотеки

(Модератор: Dmitry7)

‹ Предыдущая тема | Следующая тема ›

Страниц: 1

Каталогизация книг, статей домашней библиотеки (Прочитано 2515 раз)

Dmitry7 Модератор Вне Форума Соберем Серии "НВЖНиТ"! Сообщений: 5890 Санкт-Петербург Пол:	Каталогизация книг, статей домашней библиотеки 08.01.2020 :: 10:50:16 Кто-нибудь пользуется программой-каталогизатором AllMyBooks ?
Наверх	"Если хочешь сделать что-то хорошо, сделай это сам!" IP записан

AAW

Патриарх

Вне Форума

Старую детскую и НП литературу
ничем не заменить

Сообщений: 5463
Екатеринбург
Пол: male

Re: Каталогизация книг, статей домашней библиотеки
Ответ #1 - 10.01.2020 :: 13:54:55

Видно, никто

Может, кому-то пригодится следующая информация.

Я голову ломал несколько лет, как корректно вести личный информархив. Больно сложные требования. Мне надо было:
- соединение разнородной информации об одной реальном объекте "книга" и прочих разнородных объектах
- переносимость информации и содержания с диска на диск с сохранением целостности ссылок
- простоту используемого софта для просмотра и поиска
- экспорт другим людям, оформление "красиво" либо "для машинной обработки"
- немонстровидность, быструю работу базы
- мобильность, и заполнение из разных мест

В конце концов - спасибо коллегам на работе - обратил внимание на формат JSON. Есть в вики.
Он хорош тем, что одновременно читабелен и людьми и программами. Прост и структурирован. И удобно ветвится.

Пример записи о книге (файлик descr.txt, лежит в папке вместе с файлом обложки):

{
"NameOfRecord": "gercberger1962_sovremennaya_geometricheskaya_optika",
"Author": ["Герцбергер М."],
"Name": "Современная геометрическая оптика",
"OriginalName": "",
"Year": "1962",
"Series": "",
"Publisher": "",
"City": "",
"Volume": "",
"TAGS": [""],
"Language": "RU",
"File": [{
"Type": "book", "MD5hash": "45BD6BF6CF9D95D378321F0AB7F9D9F2", "FileName": "Gercberger(1962).djvu",
"Creator": "bolega", "Archiver": "",
"Notfull": "", "Comment": "",
"Quality":[
{"NameOfQua": "aawpubl1", "DPI": "600dpi", "Artefacts": ""}]
},
{
"Type": "book", "MD5hash": "966B0AC3D448F1E45DFD94A7FA563B63", "FileName": "Gercberger(1962).pdf",
"Creator": "bolega", "Archiver": "",
"Notfull": "", "Comment": "",
"Quality":[
{"NameOfQua": "aawpubl1", "DPI": "600dpi", "Artefacts": ""}]
}
],
"Links": [""],
"ExtLinks": [""],
"Comment": "",
"DublinCore": {"Contributor": [{"TypeOfRelation": "", "Content": "" } ] }
}

В папку можно положить допматериал, например RUSMARC, скан каталожной карточки.
Теги я использую для "поперечных" ссылок, личных пометок и т.п. Что не укладывается в дерево на диске и содержимое полей файлика JSON. Типа "малоцветная книжка"

Кодирование - UTF-8. Набор полей расширяемый, я сделал две пустые заготовки, где привёл наиболее часто используемые поля, и все поля. Можно, если хочется, уточнить к примеру плохой скан страницы, углубив "File" до "Page".

Пример записи о фильме:

{
"NameOfRecord": "davaj_pozhenimsja",
"Author": [""],
"Name": "Давай поженимся",
"OriginalName": "",
"Year": "",
"Series": "",
"Publisher": "",
"City": "",
"Volume": "",
"TAGS": [""],
"Language": "RU",
"File": [{
"Type": "video", "MD5hash": "", "FileName": "davaj_pozhenimsja.webm",
"OriginalFileName": "Маргарита Терехова в фильме Давай поженимся..webm",
"Creator": "", "Archiver": "",
"Notfull": "", "Comment": "",
"Quality":[
{"NameOfQua": "", "DPI": "", "Artefacts": ""}]
}
],
"Links": [""],
"ExtLinks": [""],
"Comment": "",
"DublinCore": {"Contributor": [{"TypeOfRelation": "Actor", "Content": "Терехова, Маргарита" } ] }
}

Файлы книг и прочего могут лежать где угодно, а информсистема лежит отдельной папкой. Корень её разбит на book, video, mp3, scans, programs и т.д. Book глубже разбит по УДК на два-три первых уровня. Например, Детская энциклопедия т.1 лежит в "\BIBLIO\books\0\encyclopedii\detskaya_enc_1957-1961\tom1\". Другие папки разбиты иначе, как я привык (личное, работа, доки, юмор...).

Осталось дело за немногим: потихоньку наполнять

Переносить файлы из общей помойки в папку "готово", внося их в информационную базу.
Редактор notepad++ понимает структуру JSON и подсказывает скобки и т.п.

Некоторый геморрой - создание выборок. Но искать-то можно и тоталкоммандером. Имя каждой папки - говорящее. А как делать извлечение с разбором структуры JSON, мне программисты показали на PHP-скрипте. Элементарно, в общем-то.

Мобильность и пополняемость я решил обеспечить волевым решением вести одну эталонную базу, а если где-то в дороге что-то заполнил/изменил, то при возвращении к эталону вносить вручную свежие данные. Вообще, один человек шибко много с информацией работать не сможет, не будешь же 24 часа качать, смотреть и пополнять архив свежескачанным. Две, пять, ну тридцать новых единиц хранения в сутки, больше мозг не переварит.

Upd
Ещё всплыл такой нюанс при проработке метода сохранения.
Раз я активно работаю с е-книгами для других, пришлось продумать как "отделить зёрна от плевел" - выделить е-книги личной библиотеки и прочий всевозможный входной мусор. Решил, что в books будет подпапка "s" и подпапка "r". В первой - всё, что не хочется плюсовать в личную библиотеку, чтобы её не замусоривать, во второй собственно дорогие/важные/нужные/любимые/... е-книги.

Наверх

« Последняя редакция: 22.01.2020 :: 07:41:14 от AAW »

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно

IP записан

Lykas

Патриарх

Вне Форума

Всем привет!

Сообщений: 1080

Re: Каталогизация книг, статей домашней библиотеки
Ответ #2 - 31.03.2022 :: 00:02:08

А чем плоха связка по которой делают архивы библиотек типа такой:
fbd + архивы с книгами + MyHomeLib
В fbd рассчитан как раз для книг, дополняются поля легко.
Обложка лежит в самом файле fbd.
Программ для обработки хватает...

Сам текст к примеру:
<?xml version="1.0" encoding="windows-1251" ?>
- <FictionBook xmlns="http://www.gribuser.ru/xml/fictionbook/2.0" xmlns:l="http://www.w3.org/1999/xlink">
- <description>
- <title-info>
<genre>sf</genre>
<genre>sf_space</genre>
- <author>
<first-name>Роберт</first-name>
<middle-name>Энсон</middle-name>
<last-name>Хайнлайн</last-name>
</author>
<book-title>Гражданин Галактики (Сборник)</book-title>
- <annotation>
<p>Роберт Хайнлайн (1907–1988) — старейший американский писатель, наряду с А. Азимовым, К Саймаком и Р. Брэдбери, признанный патриарх научно-фантастической литературы. Его произведения уже публиковались на русском языке и пользовались неизменным и заслуженным успехом у читателя.</p>
<p>Творческое наследие Хайнлайна огромно, настоящая книга, в которую вошли романы «Двойная звезда» и «Гражданин Галактики», его отнюдь не исчерпывает, но представляет этого многоликого мастера с самых неожиданных сторон.</p>
</annotation>
<date />
- <coverpage>
<image l:href="#cover.jpg" />
</coverpage>
<lang>ru</lang>
<src-lang>en</src-lang>
- <translator>
<first-name>Александр</first-name>
<middle-name>Васильевич</middle-name>
<last-name>Говорунов</last-name>
</translator>
- <translator>
<first-name>В.</first-name>
<last-name>Черныш</last-name>
</translator>
- <translator>
<first-name>Галина</first-name>
<middle-name>Сергеевна</middle-name>
<last-name>Усова</last-name>
</translator>
</title-info>
- <document-info>
- <author>
<first-name>mefysto</first-name>
<last-name />
</author>
<program-used>ABBYY FineReader 12, FictionBook Editor Release 2.6.6</program-used>
<date value="2015-06-24">130796352678630000</date>
<src-ocr>ABBYY FineReader 12</src-ocr>
<id>{09D931BF-F8EA-4662-8402-9D97D2FCA891}</id>
<version>1</version>
</document-info>
- <publish-info>
<book-name>Хайнлайн Р. / Гражданин Галактики: романы — пер. с англ.</book-name>
<publisher>Северо-Запад</publisher>
<year>1992</year>
<isbn>5-8352-0028-5</isbn>
<sequence name="Science Fiction (изд-во «Северо-Запад»)" />
</publish-info>
</description>

Наверх

IP записан

Страниц: 1

‹ Предыдущая тема | Следующая тема ›

« Главная

‹ Раздел

Наверх этой страницы