OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Читатель или собиратель ? (Прочитано 19170 раз)
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1123
Читатель или собиратель ?
02.04.2005 :: 00:59:48
 
Читать, читать и читать.
У людей читающих, как правило собирается большое количество файлов, причем в разных форматах, различных кодировках. Разные электронные библиотеки придерживаются при именовании файлов своих правил. Сравните файлы из библиотеки Fenzin.org и например,    . Кроме этого файлы пакуются в zip, rar или как в Fenzine архив rar но расширение txt. Приходится вручную распаковывать файлы WinRaroм. Как их классифицировать? Вот и получается ситуация Плюшкина - есть все, но его нада еще найти.
Наверх
« Последняя редакция: 13.03.2012 :: 20:12:29 от Dmitry7 »  
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Читатель или собиратель
Ответ #1 - 02.04.2005 :: 01:30:03
 
Так это.., не понял.
Нужна программ сортировки или "читалка"? Или вовсе поисково-справочная?

В принципе, и те и другие и даже третьи - есть в природе. И даже в нескольких (десятках) вариантов.
Наверх
 

Slawa-614
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1062
Россия
Пол: male
Re: Читатель или собиратель
Ответ #2 - 04.04.2005 :: 20:03:35
 
Слава, да ты кинь несколько программ, которые Freeware, сюда. Те, которые считаешь подходящими для использования. Тогда будет о чем говорить...
Наверх
 
WWW  
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Читатель или собиратель
Ответ #3 - 04.04.2005 :: 22:27:56
 
Вадим писал(а) 04.04.2005 :: 20:03:35:
Слава, да ты кинь несколько программ, которые Freeware, сюда. Те, которые считаешь подходящими для использования. Тогда будет о чем говорить...


Кинуть то не проблема, только ведь имеющееся у меня - заточено под фидошную фэху BOOK, а остальное я просто не собирал.


MARK            ~ 4 mb Коммерческая программа для нормальной библиотеки (ведение формуляров читателей, каталога книг, заказ новинок и пр.)

BOOK_Library    ~ 8 mb (с базой книг)   Вячеслав Алексеев. Поисковая система BOOK_Library_Rus v. 1.02
     Каталог-читалка электронных книг, коллектор файлов, поиск (по названию файлов, авторам, сериалам, пометкам читателя, классификации жанров - 3 степени вложений). Обновление базы вручную, из TXT и автоматически (но только для файлов, названных по правилам фэхи BOOK). Найденное можно прочитать (в архивах) или скопировать в указанный в настройках накопитель, не требует инсталляции и регистрации, Win95 - WinXP.

BOOKSEE3.RAR     1115849 16.01.2004 BookSeer v.3.2.3.1 - каталог-читалка электронных книг (реализована подгрузка базы из описателей фэки BOOK) [6.02.17]
     (он же - Буксир) - каталог-читалка электронных книг, коллектор файловых ссылок с описаниями любимых файлов, поиск, сортировка (по сериалам; авторам; пометкам читателя, классификация жанров - 1 степень вложения. Обновление базы вручную и из файлов TXT и DBF. Найденное тут же можно запустить или прочитать (даже в архивах), база данных общего применения (почтовые и Web адреса, коллекции, записи и т.п.), русско-английский интерфейс, не требует ни инсталляции, ни регистрации (то есть, даром), Win95 - WinXP (то есть, везде), ничего дополнительного, кроме самого себя (и Windows), не требует!


BCAT29.RAR        549021 20.10.2003 А.Дроздов "The BCatSQL for WIN32 (v2.9) Программа сортировки поступл. фэхи BOOK

BIBLIO01.RAR      819200 05.01.2001 Н.Бурмистров "Домашняя библиотека - BIBLIO" v 1.0
 Предназначена для управления, поиска, сортировки (классификации по сериалам; авторам; пометкам читателя и жанрам - три степени вложений), просмотра (с разархивацией) текстовых файлов, расположенных на винчестере и/или разных CD, разгребание свежепришедших завалов книг по тикам или FILES.BBS. Позволяет подгружать или перезакачивать всю базу из текстовых файлов (определенного формата), формирует отчеты по наличию книг выбранных авторов, жанров или других условий поиска.
(Программа недоотлажена автором)


BKTOSS02.RAR      389852 08.07.2002 Николай Козлов, Иван Рудаков "BkTosser v.0.8.2 beta - программа, облегчающая сортировку

BOOKHELF.EXE      367200 05.09.2002 Рендерит из текста книгу на экране в фулл-скрине

BOOKSCAN.RAR       19750 02.10.1998 Программа для разборки приходящих книг

BSCAN.RAR          34411 18.03.1999 BookScan v1.3Beta. Менеджер приходящих по BOOK'у файлов.

BTOSSER1.RAR      694335 05.06.2002 Николай Козлов, Иван Рудаков "BkTosser, программа, облегчающая ведение электронной библиотеки.

BV106RUS.RAR      196277 13.04.2001 BookView 1.06. Программа для чтения электронных книг.

CLTXT200.RAR       40952 02.10.2003 Zmiy "CLTXT - Чистка и склейка текста после FINEREADER-а (ВЕР. 2.00)

CONV-DOC.RAR        9458 19.11.2002 home_library@chat_ru "Макрос для конвертирования файлов Word в формат txt [Office XP]

DOC2TXT.RAR        59418 18.04.2003 Zmiy "Конвертор WinWord.DOC -> DOS.TXT [6.02.17]

EXLIBRIS.ZIP      107394 13.09.1999 ExLibris 1.3.2 Library maintenance utility (программа учета книг (бумажных), но годится и для файлов)

FCUTTER.RAR        13131 06.11.2002 Евгений Жирнов "Пуржератор для фэхи BOOK v.1.00 beta

FE121.ARJ          38232 05.11.1998 Проверка текста "Свежий Взгляд\Fresh Eye". Version 1.21 (23.06.95) (В помощь писателю)

GUSEWM01.ZIP      194081 23.07.2001 Максим Гусев "Программа для индексации документов и поиска по произвольному слову.

KODIR2.RAR         26108 31.01.2003 Павел Шумилов "Программа перекодировки текстовых файлов

NEBULA.RAR        198131 01.09.2002 Ольга Воронова "Поисковая система для быстрого поиска файлов, записанных на CD-ROM (арх.текстов и картинок). v 2.53
     Каталог-читалка электронных книг, коллектор файлов, поиск (по сериалам; авторам; пометкам читателя, классификация жанров - 3 степени вложений). Обновление базы вручную или из TXT средствами Clarion for DOS v.2.01. Найденное можно запустить или прочитать (в архивах), не требует инсталляции и регистрации, DOS - Win95 - WinXP.

TOSSER09.RAR        9076 04.11.2002 Valerka "Tosser v 0.9 для фэхи BOOK

UTIL-TXT.ARJ       74732 28.12.1997 Утилиты для работы с текстом (конверторы старых форматов)

WORDMACR.HA         1012 05.08.2000 Макросы MS-Word для обработки текстов

ZD2T-101.RAR       69997 12.05.2003 Zmiy "Программ преобразования WinDOC в DOD-TXT (вер. 1.01) [6.02.17]

ZD2T-103.RAR       73192 04.11.2003 Zmiy "Программ ZD2T - преобразование DOC в TXT (вер. 1.03) [6.02.17]

 
Наверх
 

Slawa-614
 
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1123
Re: Читатель или собиратель
Ответ #4 - 09.04.2005 :: 01:05:23
 
Идеальный вариант:
1. Работа с архивами.
2. Понимающая и автоматически распознающая кодировки.
3. Поиск по текстам как распакованым, так и упакованым.
4. Решение проблемы архивов rar.txt
5. Поиск дублей текстов. (С указанием % совпадения словаря, редких слов и личных имен)
6. Возможность пакетной обработки файлов в теневом режиме.
7. Возможность автоматического поиска в тексте автора/названия.
Отдельные элементы есть в Штирлице, Буксире, есть и макросы для WORDa.
Но п.5 и 7 не встречал.
Зачем это надо? Пора хоть немного прибраться.
Наверх
 
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Читатель или собиратель
Ответ #5 - 09.04.2005 :: 17:20:57
 
Lykas писал(а) 09.04.2005 :: 01:05:23:
Идеальный вариант:
3. Поиск по текстам как распакованым, так и упакованым.


При наличии десятков тысяч файлов в архивах такой поиск будет ну очень медленным. На современном этапе проще и быстрее воспользоваться собственной памятью или помощью зала (точнее, специализированного форума).
 У меня есть программ (самоделка) - распаковывает HA или RAR архивы, если внутри TXT - прочитывает первые 30 строк (поиск слов АНОНС - АННОТАЦИЯ) и при нахождении перезаписывает в файл анонсов 2-3 абзаца. Если же внутри архива DOC или DJVU - аналогичную информацию ищет в File_Id.DIZ.
 Так вот, несмотря на то, что глубже 30 строк в текст она не лезет, на обработку 1000 файлов уходит часа 2-3. А если взять ту же тысячу, но поиск до конца каждого файла (большинсто от 0.8 до 1.5 мег) и попробовать найти фразу, которая к тому же может случайно оказаться разбитой на 2 строчки. Сколько времени уйдет на все про все? А если полста тысяч файлов?

 Анонсы выдернуть - можно и потерпеть пару часов (тем более, что руками там нужно лезть в самом крайнем случае - если запорченный архив или внутри файлик с атрибутом ReadOnly). Подготовленный файл анонсов потом прогружается в поисковую программ Book_Library и там навечно остается. Вот по нему потом можно будет и поиск запустить.

Lykas писал(а) 09.04.2005 :: 01:05:23:
4. Решение проблемы архивов rar.txt


 Не понял, а в чем проблема? Другое дело djvu "прочитать", но такие вещи не для поисковиков. А для TXT или DOC - никаких проблем не существует. Хоть в RAR, хоть в HA, хоть в ZOO, US2 или даже BSA (для тех, кто не помнит - BSA - Большой Советский Архиватор, предшественних ZIP-а).

Lykas писал(а) 09.04.2005 :: 01:05:23:
5. Поиск дублей текстов. (С указанием % совпадения словаря, редких слов и личных имен)


 Пока не реализуемо. Имеющиеся среди оцифровщиков программеры - просто не возьмутся решать подобную задачу в одиночку, остальным - это без надобности, а софтверным фирмам, которые могли бы справится - такую задачу вряд ли кто поставит и проплатит.

  Я пробовал, причем задача стояла более простая - сравнивать листинги разных библиотек и состовлять список отсутствующего в моем листинге. Главная проблема - не то что файл или название произведения, даже одного и того же автора можно назвать по разному, да еще применить вперемешку латинские и кириллические буквы. В итоге, достверность списков отсутствующего у меня не превышала 40%.

Lykas писал(а) 09.04.2005 :: 01:05:23:
6. Возможность пакетной обработки файлов в теневом режиме.
7. Возможность автоматического поиска в тексте автора/названия.
Зачем это надо? Пора хоть немного прибраться.  


Автопилоты у обработчиков есть, но с авторами/названиями - реализуемо только в случае, если все файлы взяты из одного источника. Как только попадается "фестиваль" - ни о какой автоматизации не может быть и речи.

Именно поэтому для книжных фидошных файл-эх - наименование файлов и структура информационного File_ID.DIZ - жестко забиты в правила фэхи. Чтоб можно было разгребать на автомате. А все, что появляется для фэхи - тут же конвертится, перепаковывается и переименовывается. Ведь проще каждую неделю обрабатывать по 30-50 новинок - не запуская это дело, чем потом разгребать завалы из пары тысяч непонятных архивов.
Наверх
« Последняя редакция: 09.04.2005 :: 17:30:43 от Slawa-614 »  

Slawa-614
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: Читатель или собиратель
Ответ #6 - 09.04.2005 :: 17:54:44
 
Кстати, одна из приблуд, которые начал работать, но так и не довел до ума - за нереализуемостью.

  Программ определяет жанр произведения (не все, разумеется, да и работает только по текстовым файлам в кодировке DOS).

  В каталоге с несколькими DOS-TXT файлами запускается программ "GANR Z" - если все авторы зарубежные, "GANR R" - если все русскоязычные, или просто "GANR.EXE", но в последнем случае на каждый файл она будет запрашивать "признак зарубежности" (R/Z).
  Результаты выводятся на экран и в файл TEXT.LOG, например:

    AGORN1.TXT
41.7% Вестерн, Боевики [1.02.03]
15.7% Путешествия во времени, Переводная фантастика [1.04.12]
10.4% Остальное, Любовный роман [1.09.01]
17.4% Эротика в поэзии и народном творчестве, Любовный роман [1.09.05]
--------------------------------------
    FORMULA1.TXT
37.5% Бандюки, Боевики [1.02.02]
29.2% Путешествия во времени, Переводная фантастика [1.04.12]
12.5% Про войну, Зарубежная проза [1.08.10]
--------------------------------------
    HEFI2.TXT
15.0% Остальное, Детективы [1.01.01]
19.2% Бандюки, Боевики [1.02.02]
16.8% Путешествия во времени, Переводная фантастика [1.04.12]
14.4% Остальное, Любовный роман [1.09.01]
--------------------------------------
    WELCOME.TXT
А это вообще не худ.лит (Жанр не определен)
--------------------------------------
    FTP.TXT
А это вообще не худ.лит (Жанр не определен)
--------------------------------------

P.S. В каталоге с программой лежали файлы:
AGORN1.TXT - А. Айнгорн. ОГНЕННАЯ ЛИЛИЯ (любовный роман на диком западе)
FORMULA1.TXT - Cергей Ксензов. Формула смерти (заявлено автором как "триллер-боевик-мистика-фантастика-ужасы")
HEFI2.TXT - Хелен ФИЛДИНГ. ГРАНИ РАЗУМНОГО (про воинствующих феминисток)
WELCOME.TXT - пустой файл
FTP.TXT - список FTP - серверов
Наверх
 

GANR.RAR (Вложенный файл удален)

Slawa-614
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5922
Санкт-Петербург
Пол: male
Re: Читатель или собиратель
Ответ #7 - 15.01.2012 :: 23:08:41
 

А не реанимировать ли эту тему? Наверняка за 7 лет у многих юзеров - создателей, читателей и коллекционеров электронных книг накопилось множество соображений по этому поводу
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1123
Re: Читатель или собиратель ?
Ответ #8 - 16.01.2012 :: 21:52:57
 
Сейчас пользуюсь Либрусеком или торентом с его зеркалом и программой-оболочкой MyHomeLib.
То что мне может понадобиться - загружаю туда.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5922
Санкт-Петербург
Пол: male
Re: Читатель или собиратель ?
Ответ #9 - 16.01.2012 :: 22:31:27
 
вот есть такой каталогизатор "All My Books"
http://www.bolidesoft.com/rus/allmybooks.html

пользуюсь им давно, достаточно удобно
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1062
Россия
Пол: male
Re: Читатель или собиратель ?
Ответ #10 - 16.01.2012 :: 23:01:49
 
Dmitry7 писал(а) 16.01.2012 :: 22:31:27:
вот есть такой каталогизатор "All My Books"
http://www.bolidesoft.com/rus/allmybooks.html

пользуюсь им давно, достаточно удобно


А какие базы он создает? Пришли мне кусок, чтобы посмотреть.
Наверх
 
WWW  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5922
Санкт-Петербург
Пол: male
Re: Читатель или собиратель ?
Ответ #11 - 17.01.2012 :: 19:03:27
 
Вадим писал(а) 16.01.2012 :: 23:01:49:
А какие базы он создает? Пришли мне кусок, чтобы посмотреть.


вроде в формате "Standard Jet DB"
http://en.wikipedia.org/wiki/Microsoft_Jet_Database_Engine

вот кусочек
http://narod.ru/disk/37994586001/ebooks%5B1%5D.amb.html

а вот статейка про программу:
Наверх
« Последняя редакция: 17.01.2012 :: 19:10:25 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5922
Санкт-Петербург
Пол: male
Re: Читатель или собиратель ?
Ответ #12 - 14.03.2012 :: 18:25:03
 
Вадим писал(а) 16.01.2012 :: 23:01:49:
А какие базы он создает? Пришли мне кусок, чтобы посмотреть.


и как впечатления о программе?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1062
Россия
Пол: male
Re: Читатель или собиратель ?
Ответ #13 - 14.03.2012 :: 21:53:26
 
Dmitry7 писал(а) 14.03.2012 :: 18:25:03:
и как впечатления о программе?

Не то.
Наверх
 
WWW  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5922
Санкт-Петербург
Пол: male
Re: Читатель или собиратель ?
Ответ #14 - 08.02.2013 :: 20:09:15
 
Вадим писал(а) 14.03.2012 :: 21:53:26:
Не то.


так всё-таки почему "не то" ?

чего ей не хватает?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dual
Новичок
*
Вне Форума


Всем привет!

Сообщений: 14
Львов
Пол: male
Re: Читатель или собиратель ?
Ответ #15 - 23.05.2015 :: 18:12:22
 
И читатель, и собиратель...
За многие годы поднасобиралось всякого материала, дублей и мусора. Откровенное жлобство мешает откровенно избавляться от старья.
В наведении порядка на винтах помогают два метода систематизация файлов и поисковик.
Системное дерево ограничено 256 знаками (приходится длинные названия статей коротить), но больше и не надо - слишком разросшееся дерево тоже не приносит удобств.
Поисковик у меня Locate. Вполне достаточно базы раз в недельку обновлять, да и дубли порой находит сразу. Но, двумя встроенными и с накопительным винтом я его запутываю периодически...

Наверх
 

Если вы плюете мне в спину - значит я впереди вас!
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать