Здравствуйте! Очень приятно пообщаться с человеком, который отсканил много книг! Множество
Идея создания облака заключается в следующем
1. Записи книг хранятся в отдельном файле
Каждая строка файла вида
1105500 | pdf | 2037799 | 05330300 | RU | 2014 | Хельвинкель Д. | Систематическая номенклатура органических соединений
Это записи, разделенные разделителем | Для дальнейшего быстрого разбора
1 - Элемент это номер, номер соответствует каталогу мехмата, который парсингом закачивается в течении часа
2. Расширение файла (pdf или djvu)
3. Размер (байты)
4. Рубрикатор, ну типа журнал, серия, и т.д.и т.п - уникальный номер на рубрикатор, который в отдельном текстовом файле
5. Язык
6. Авторы
7. Название
Файлы книг хранятся в виде 1105500.pdf
1. решается вопрос хранения книг на дисковом пространстве, кодировка, длина и прочие проблемы
2. Таким образом, пользователь библиотеки обращается к запросу через веб: поиск, скачать, рубрикатор
2.1 Поиск осуществляется по единственному текстовому файлу каталога. Если вы не онанируете на питон (Pyton), то поиск с использованием программы на Си это ОЧЕНЬ быстро, выдаем результаты поиска в виде таких же строк.
Зная номер (номер книги) запроса делаем красивую обертку этих строк и линк на файл.
2.2 Выгрузку по номеру, пользователю в формате <авторы> <титл> <год>.<расширение> в зависимости от операционной системы запроса (я имею в виду кодировку): UTF8 для яблочников, линуксоидов, FreeBSD и других UNIX делается через "cat" с указанием специфики файла
3. Книги закачиваются разным образом: парсинг, руками
Закаченные книги сохраняются в файлы
<рубрика> <автор> <название> <год>.<расширение>
или, например,
05330300 Хельвинкель Д. Систематическая номенклатура органических соединений 2014.pdf
4. Написана программа, которая способна разобрать закачанные файлы по автору, названию и году и определить:
- есть ли такой файл и отличается он по размеру и расширению
- создать лог по файлам, подозрительным на текущий, ну типа название немного не то, инициалы авторов не те, список авторов не тот, год не тот...
- создается скрипт копирования файлов в файл базы<номер>.<расширение>
- если файла нет в базе, то заносится новый номер
5. Вопрос с титлами решается просто, титлы храняться в файле <номер>.jpg. Титл по первой странице можно получить автоматом множеством программ, отсюда моя НЕЛЮБОВЬ к любителям титлов передника и задника на последних страницах. Титлы вручную, интернет, парсинг...
Типа так, главное - генетика. Эту базу выгрузить в другую очень просто
P.S. Почитал... свое... Жуть. Опишу нормальным языком. Очень сложно писать в окне 5x5 не видя весь текст. Пардон
AAW писал(а) 27.09.2022 :: 08:09:30:речь не про нелегальное, а про то, как сам сервис развернуть. инструкция и код.
кстати, а как вы к книге прикрепили ее реквизиты?? 130 тыс записей перепроверить - титанический труд.