OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 
Послать Тему Печать
Чехов А. П. Собр. соч. в 30 томах (Прочитано 24898 раз)
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Чехов А. П. Собр. соч. в 30 томах
05.06.2006 :: 20:09:37
 
Делается собрание сочинений А.П.Чехова в 30-ти томах. Делается давно и тяжело.
Предполагается сделать все книги в форматах DJVU, TXT и DOC.
Первые 18 томов (без тома 10) в форматах DJVU и TXT делаю я, Вадим Ершов.
Формат DOC и (возможно) все оставшиеся тома делает sad369.

Огромная просьба ко все желающим. Не возьмется ли кто-нибудь за вычитку.

Часть работы уже сделана. Файлы можно взять здесь:
http://publ.lib.ru/ARCHIVES/CH/CHEHOV_Anton_Pavlovich/

Имеющиеся файлы DOC вычитал sad369. Файлы TXT прошли только SpellCheck.
Наверх
 
WWW  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #1 - 06.06.2006 :: 18:22:51
 
Друзья, неужто книги одного из наших классиков останутся без вычитки?
Вот простая арифметика. Мне за два месяца удалось вычитать 3 тома. В каком году будет вычитано все собрание? Ответ неизвестен, так как чтение одного автора в таком объеме постепенно утомляет. А вот если бы всем миром взяться...
Наверх
 
 
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 673
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #2 - 07.06.2006 :: 00:09:49
 
Беру т. 6.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #3 - 07.06.2006 :: 21:42:51
 
Спасибо! Уже меньше осталось...
Наверх
 
WWW  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 673
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #4 - 08.06.2006 :: 10:12:33
 
У меня проблема - не могу перевести DJVU в другой формат для распознавания, на диске 3 ГБ свободных, но места для распаковки не хватает.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #5 - 08.06.2006 :: 22:38:49
 
Да. Проблема. Я сбросил одну страничку из плагина, так она заняла около 15 Мб. А в 6 томе их больше 700.
У меня сохранились BMP этого тома после СканКромсатора. Даже есть распознанный в ФайнРидер-8 вариант. Но это занимает в архивированном виде около 65 Мб.
Есть оригинальный скан. Развороты не разбиты на страницы. Он занимает около 40 Мб.
Если есть возможность скачать, то могу выложить куда-нибудь.
Наверх
 
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #6 - 09.06.2006 :: 04:59:56
 
Через IrfanView можно перегнать DJVU в любой другой формат.
Сначала из плагина сохраняется файл с разбиением на отдельтные страницы. Расширение у файлов должно быть обязательно DJVU, а не DJV - иначе IrfanView их не увидит. Получается множество DJVU файлов.
Потом через пакетное преобразование в IrfanView конвертируются все они, например, в TIFF со сжатием CCITT Fax 4 (в Опциях надо выставить). Исходный результат очень мало места занимает.
Наверх
 
WWW  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 673
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #7 - 09.06.2006 :: 08:29:00
 
Намного лучше.
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #8 - 09.06.2006 :: 18:04:25
 
Можно проще - сразу в любой формат.
IrfanView ( 3.95+ ) умеет делать пакетом (View -> MultiPage Images -> Extract All Pages ->
указать каталог).

Информация получена от Slawa-614. Давно. Где-то и на форуме это лежит.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #9 - 10.06.2006 :: 04:31:19
 
М.б. накладки с версиями DjVu еще. Мне как-то попалась книжка, непросматриваемая DjVu Solo 3.1 (Windjvu ее видел) - пришлось качать последнюю версию плагина к IE и сохранять постранично.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов А. П. Собр. соч. в 30 томах.
Ответ #10 - 20.06.2006 :: 12:14:39
 
Если в текстовых форматах, то объем работы уж слишком большой. Ведь поскольку классика, то считывать надо не один раз. Не верится, что будет все как надо. Жаль расхолаживать, но, по-моему, следовало бы ограничиться суперкачественным DJVU (что-нибудь по Minor). А считывание - потом. И, может, частично использовать для текстового считывания версии Ихтика? Что он, зря что ли собрания сочинений Чехова и о Чехове делал в TXT?
Наверх
 
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #11 - 20.06.2006 :: 17:46:02
 
Для Вадима диск с ПСС Чехова.
Просьба в случае каких-либо неувязок с архивом или при установке сообщить об этом до четверга (вкл.)
Наверх
 

CHEKHOV_part1.rar (Вложенный файл удален)
 
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #12 - 20.06.2006 :: 17:47:44
 
Как и договаривались, без фотографий и музыки.

Второй том архива
Наверх
 

CHEKHOV_part2.rar (Вложенный файл удален)
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #13 - 20.06.2006 :: 17:48:11
 
amyatishkin писал(а) 10.06.2006 :: 04:31:19:
М.б. накладки с версиями DjVu еще. Мне как-то попалась книжка, непросматриваемая DjVu Solo 3.1 (Windjvu ее видел) - пришлось качать последнюю версию плагина к IE и сохранять постранично.

DjvuSolo делает DJVU файлы версии 21. А версию 25 он не берет.
Наверх
 
WWW  
IP записан
 
Minor
Активист
***
Вне Форума


Бывший участник

Сообщений: 278
Петербург
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #14 - 20.06.2006 :: 17:48:53
 
Третий и последний том архива
Наверх
 

CHEKHOV_part3.rar (Вложенный файл удален)
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #15 - 20.06.2006 :: 18:05:02
 
Minor писал(а) 20.06.2006 :: 17:48:53:
Третий и последний том архива

Все открылось и работает. Спасибо!
Наверх
 
WWW  
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #16 - 21.06.2006 :: 20:07:17
 
Хотелось бы ответить уважаемому г. Готье

Цитата: Если в текстовых форматах, то объем работы уж слишком большой. Ведь поскольку классика, то считывать надо не один раз. Не верится, что будет все как надо

Объем работы действительно велик, потому и возник крик о помощи: кто еще может присоединиться к работе. Качественное считывание, разумеется, это самая важная ее часть.

Цитата: Жаль расхолаживать, но, по-моему, следовало бы ограничиться суперкачественным DJVU (что-нибудь по Minor).

Каким бы суперкачественным не был файл дежавю, ввиду органически присущих ему недостатков, он уступает хорошо сделанному текстовому файлу. (Я сейчас говорю про художественную литературу).

Цитата: А считывание - потом

Ворос: А когда? В 22 веке?

Цитата: И, может, частично использовать для текстового считывания версии Ихтика?

Вопрос: Это не те же самые версии, что лежали на http://cfrl.ru/ Если это что-то другое, хотелось бы узнать подробнее. На самом сайте http://ihtik.lib.ru/ раздел художественной литературы недоступен.


Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #17 - 22.06.2006 :: 00:36:12
 
Здравствуйте. По наводке юзера sad369 заглянула в эту тему.

Чехова я люблю и в принципе с удовольствием бы помогла в вычитке, но мне не очень ясна идея проекта в контексте развития рунета, скажем так. Ведь сейчас активно развиваются открытые проекты, где делают очень академические сетевые издания классиков при финансовой поддержке министерств (сайты типа ФЭБ, РВБ и тп), единственная проблема - там такая сложная организация, что трудно скачивать тексты. И мнится мне: Чехов вполне себе классик и его тоже будут оцифровывать эти официозные сайты, и со всей возможной скрупулезностью. Помню когда-то Достоевского принялись оцифровывать на академическом уровне в таком-то университете. И этот проект сейчас тоже финансируется из казны, насколько мне известно.

Ну и еще мне непонятно, зачем отдельно вычитывать тексты в формате тхт и док.
И еще мне непонятно, почему у ихтика Чехов вроде лежит уже в текстах, но недоступен.
И еще...  Нерешительный

А вот то, что заставили убрать Андрея Платонова (который по-моему без пяти минут вполне себе классик), хотя уже все шло к полному собранию сочинений в библиотеке Ершова - вот это беда и преступление. И я лично вычитаю всего Платонова построчно, если кто предложит: единственно из протестантства.

Но с Чеховым как-то неясно. Возможно, я не понимаю чего-то очевидного. Обьясните, пожалуйста.


PS. юзеру sad369: про формат джвю я отдельно почитала, вопросы отменяются.
Наверх
 
 
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #18 - 22.06.2006 :: 14:59:44
 
Попробую ответить по пунктам.
1) Качество академического издания мало зависит от величины финансирования проекта. Любители тут могут поработать не хуже "профессионалов".
2) Насчет файлов тхт. По идее они выполняют роль "массового" издания, хотя и лишенного академической точности, но зато доступного в тхт-библиотеках, вроде библиотеки Мошкова. Может быть Вадим Ершов, как главный адвокат формата приведет дополнительные аргументы.
3) Вычитка проходит так: Вадим сканировал книги и выполнил spellcheck, получая на выходе тхт-файл. После чего я вычитываю текст вручную (т. е. глазами) и делаю форматирование в ворде. После этого, как я понимаю, создается тхт-файл в его окончательной форме, т. е. 2 формата это не отдельные вычитки, а 2 последовательных вычитки.
4) Насчет Ихтика я сам заинтригован. Подождем, что Готье скажет.
5) А Платонов это не без 5 минут, а просто классик.

Наверх
 
 
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #19 - 22.06.2006 :: 15:00:02
 
Попробую ответить по пунктам.
1) Качество академического издания мало зависит от величины финансирования проекта. Любители тут могут поработать не хуже "профессионалов".
2) Насчет файлов тхт. По идее они выполняют роль "массового" издания, хотя и лишенного академической точности, но зато доступного в тхт-библиотеках, вроде библиотеки Мошкова. Может быть Вадим Ершов, как главный адвокат формата приведет дополнительные аргументы.
3) Вычитка проходит так: Вадим сканировал книги и выполнил spellcheck, получая на выходе тхт-файл. После чего я вычитываю текст вручную (т. е. глазами) и делаю форматирование в ворде. После этого, как я понимаю, создается тхт-файл в его окончательной форме, т. е. 2 формата это не отдельные вычитки, а 2 последовательных вычитки.
4) Насчет Ихтика я сам заинтригован. Подождем, что Готье скажет.
5) А Платонов это не без 5 минут, а просто классик.

Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов Ихтика
Ответ #20 - 22.06.2006 :: 17:07:41
 
Я не писал, что Ихтик сделал "ПСС", я указывал на "СС". Очень много версий Ихтика лежит здесь, у Вадима, посмотрите, там даже "о. Сахалин" и письма. Имено их я имел в виду, когда указывал, что могут помочь - останется только считать, без сканирования.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #21 - 22.06.2006 :: 19:27:40
 
Значит так. Платонов, вроде, исключен из списков запрещенных КМ.РУ.
У кого-нибудь есть список авторов, переводчиков и произведений запрещенных КМ.РУ на сегодняшний день? Если есть, киньте сюда, пожалуйста.
Насчет Платонова я постараюсь узнать и если он не в запрете, то открою все ссылки, добавлю в архив найденное в Инет и можно приступать...
Наверх
 
WWW  
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #22 - 22.06.2006 :: 19:47:20
 
Вадим, не спешите. Я тут только что сделала маленький обзор на тему: http://publ.lib.ru/cgi/forum/YaBB.pl?num=1137749025/13#13

Посмотрите на www.litagent.ru списки авторов. ФТМ заодно с КМ.ру работают, хотя бы судя по тексту иска к фикшэнбук (см. выше ссылки).
Посмотрите также списки присланные КМ.ру на форуме фикшенбука.
http://www.fictionbook.org/forum/

Это просто на всякий случай - ситуация мутная покамест.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #23 - 22.06.2006 :: 19:47:31
 
Что касается Чехова и классиков вообще.
Я понимаю это дело так. Если все это есть в свободном доступе на некоммерческих сайтах, то широкий доступ к литературе обеспечен. А все проекты: государственные или коммерческие больше работают в направлении повышения качества издания и часто, как показывает практика, пытаются что-нибудь получить за свою работу. Т.е. получение материала чем-нибудь ими да ограничено.
Наверх
 
WWW  
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #24 - 22.06.2006 :: 20:20:08
 
Цитата:
Что касается Чехова и классиков вообще.
Я понимаю это дело так. Если все это есть в свободном доступе на некоммерческих сайтах, то широкий доступ к литературе обеспечен. А все проекты: государственные или коммерческие больше работают в направлении повышения качества издания и часто, как показывает практика, пытаются что-нибудь получить за свою работу. Т.е. получение материала чем-нибудь ими да ограничено.


Что, ФЭБ или РВБ тоже чего-то хотят получить? "И ты, Брут." Хотелось бы понять это утверждение, ибо мной ничего подобного замечено за ними не было. Наоборот даже - на то они и казенные денежки, вроде бы? Это важный вопрос, кстати...

Вот пример: сейчас имеет место самое полное возможное издание Батюшкова на рвб (или фэб? путаю их), такое полное что даже страшно. Параллельно на вологодском муниципально-библиотечном буксайт.ру тоже решили выложить "всего Батюшкова" и сделали отличную подборку, я ее с удовольствием скачала, но по текстовой полноте и прочим примечаниям это конечно же не тот уровень совсем. В Вологде Батюшкова делали п.ч. он как бы местный Улыбка И между прочим Шаламова там по той же причине сделали - но шаламовская подборка очевидно сделана энтузиастами Шаламова и по этому писателю в итоге это лучший сайт и другой такой вряд ли будет (тем более, что его хотят изъять из школьных програм - вместе с солженицыным - такие-дела-привет).

Почему-то мне кажется, что ситуация с Шаламовым/Батюшковым на буксайт.ру и рвб аналогична ситуации с Чеховым/Платоновым здесь.

23.06.2006 :: 03:13:47Поправка: имелась в виду ФЭБ , а не РВБ.
Наверх
« Последняя редакция: 23.06.2006 :: 03:15:03 от primus »  
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #25 - 22.06.2006 :: 21:27:17
 
sad369 писал(а) 22.06.2006 :: 15:00:02:
Попробую ответить по пунктам.
1) Качество академического издания мало зависит от величины финансирования проекта. Любители тут могут поработать не хуже "профессионалов".


Ну немножко все же зависит и от финансирования. Например, штат корректоров побольше и попрофессиональнее (хотелось бы верить, конечно), доступ к рукописям в гос.библиотеках для полноты издания, плюс очень изощренное технически оформление проекта, а это часто значит дорогое оборудование и програмное обеспечение, плюс вебмастер-специалист (такие редко бывают энтузиастами, зато зарабатывают хорошо и не зря).

Цитата:
2) Насчет файлов тхт. По идее они выполняют роль "массового" издания, хотя и лишенного академической точности, но зато доступного в тхт-библиотеках, вроде библиотеки Мошкова. Может быть Вадим Ершов, как главный адвокат формата приведет дополнительные аргументы.


Массовость тхт мне понятна. Но ведь так или иначе такие нехитрые файлы уже существуют... и даже не в одном исполнении? Впрочем этот вопрос отпадает ввиду следующего пункта.

Цитата:
3) Вычитка проходит так: Вадим сканировал книги и выполнил spellcheck, получая на выходе тхт-файл. После чего я вычитываю текст вручную (т. е. глазами) и делаю форматирование в ворде. После этого, как я понимаю, создается тхт-файл в его окончательной форме, т. е. 2 формата это не отдельные вычитки, а 2 последовательных вычитки.


тхт1 > ворд > тхт2 - но глазами-то вычитка на этапе тхт1 только? или и после ворда еще надо? о боже.
Хочу уточнить "спеллчек": это машинная проверка, так ведь?

Цитата:
4) Насчет Ихтика я сам заинтригован. Подождем, что Готье скажет.


Все же хотелось бы узнать, почему в библиотеке ихтика недоступен отдел художественной литературы.... если кто в курсе. Готье не обьяснил покамест.

Цитата:
5) А Платонов это не без 5 минут, а просто классик.


Ну да, но все-таки, ну как бы это сказать... другая местность, если говорить в терминах литературной/культурной топографии.


ПС. Кстати я тоже скачала диск Чехова (то, что выложил юзер minor - спасибо!) и там все файлы с расширением тхт сурово закодированы. Или это липовое расширение? Я не разбираюсь. Но Колесников-редактор по части вычитки изрядно дотошен, судя по его выкладкам в библиотеке-магистра...
Т.е. вместе с диском получается уже 3 разных источника текстовых СС Чехова (минус письма и тд): колесников, ихтик, машинный институт (или как там...)

Т.е. в итоге картина мотивации по оцифровке ПСС А.П.Чехова складывается такая:
1) на официозные электронные библиотеки никто не надеется и не любит их:
1а) толи п.ч. они Чехова делать не собираются вообще (???)
1б) толи п.ч. они его тоже однажды засекретят как на коммерческом диске (???)
2) хочется сделать самую исчерпывающую подборку текстов своими силами и с чистого листа
3) чтоб все всегда и везде могли прочитать разночтения к юношескому фельетону классика Улыбка)
4) в сухом остатке: "кто - если не мы?"

Мое замешательство очевидно связано с тем, что я не понимаю, откуда взялся первый пункт... почему такое отношение и приравнивание коммерческих проектов (типа зашифрованного диска на продажу) к казенным академическим электронным литературным трам-та-ра-рам проектам?

Получилось длинно, ну да и так сойдет... вычитывать дольше будет.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #26 - 06.07.2006 :: 11:08:00
 
1. Читайте мой ответ внимательнее: я имею в виду версии Ихтика, которые лежат здесь у Вадима, а не у самого Ихтика.
2. Насчет трех источников СС Чехова (диск, Ихтик, Вадим). Есть и четвертый еще на одном из сайтов.
3. Я взял диск Чехова, присланный сюда. Сейчас точно не помню, но, вроде, версии ттам конца 1990-х гг. Я посмотрел там рассказ "Барыня" в т.1 и обнаружил в тексте характерную опечатку OCR (не помню где, но если кто интересуется, потом скажу). Эта же опечатка обнаружилась и в версии "Барыни" Ихтика (которую я брал у Вадима). Файл
версии Ихтика позднее, чем на диске.
В ПСС от Вадима (DJVU) данной опечатки я не нашел, как и в своем бумажном собрании соч. Чехова.
Вот и смотрите сами: что такое диск с опечатками и что такое первоначальные версии. Все полностью считать без опечаток сил не хватило, что и понятно.
4. Остаюсь при своем: качественный DJVU ПСС, что и делает Вадим. Пока только так - сил не будет сделать все окончательно. И нечего поэтому на считывание время тратить.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #27 - 10.07.2006 :: 01:58:23
 
Видно, я уже совсем отупел. Не понял, о чем здесь флуд? Насколько представляю ситуацию, давным-давно на машинном фонде русского языка был выставлен в txt псс Чехова. Люди захотели сделать лучше (у ворде).  И начали делать. Что тут еще обсуждать?
Наверх
 
 
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #28 - 10.07.2006 :: 19:04:28
 
Поясняю. Люди захотели сделать лучше (у ворде).  И начали делать. А потом, прикинув сколько это займет времени, попросили помощи у коллег. Пока только Lykas отозвался. Может еще кто-нибудь. поддержит нашу идею. Вот и все.
У меня сейчас в работе том 7.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #29 - 11.07.2006 :: 01:24:51
 
Мне б ваши проблемы! Я более 200 томов из разных собраний сочинений отсканил. И хучь бы одна собака помогла. Материально, правда, помогли, пожертвовали тысячи 3 рублей в общей сложности. И тома 3 помогли вычмтывать. Вот и все. Нормальная вещь. Инициатива наказуема. Банальность.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #30 - 11.07.2006 :: 15:10:59
 
Лично я встрял здесь в разговор, чтобы донести всю ту же банальную мысль, которая, к сожаоению, несмотря на проходящее время не меняется. Да хоть сто ПСС и СС Чехова в TXT и HTML будет, где гарантия, что там все нормально, без опечаток? А мне только такой Чехов, без опечаток, и нужен. А то указывают тут - зачем DOC, коли TXT, да почему никто не поможет. Я представляю себе объем работы до "без опечаток", и сам к такому применительно к ПСС не готов, и не верю, что простые энтузиасты смогут.
Зато DJVU - все можно сделать нормально, не утопия это.
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #31 - 11.07.2006 :: 18:40:34
 
Не знаю даже, возможны ли на сегодняшний день совершенно исправные собрания сочинений кого бы то ни было. Вот вроде такое геройское начинание: заслуженное бумажное издательство "Республика" делает 30-томник В.В. Розанова по девственным рукописям и с комментариями высокой степени въедливости. Печатается все сие на прекрасной бумаге, отличнейшее оформление, да и вообще все самой высшей пробы.
И тем не менее: в некотором месте очередного толстого тома попадается подборка писем одноклассника Розанова, которые тот цитирует полностью и на 8 листах. И что ж? Это совершенно сырой текст набранный петитом и кишащий опечатками. Корректоры решили, наверное, что раз не сам мэтр писал, то зачем же и вычитывать...

Касательно 30-томника Чехова, цель и основная направленность проекта продолжают оставаться для меня загадкой. Сложное форматирование в Ворде может быть вполне увлекательным занятием, но как мотивация для меня этого недостаточно. Так что всего лучшего.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #32 - 12.07.2006 :: 02:37:28
 
primus писал(а) 11.07.2006 :: 18:40:34:
Не знаю даже, возможны ли на сегодняшний день совершенно исправные собрания сочинений кого бы то ни было.

А в чем проблема? Просто новоделов не брать и все. Есть чудесно сделанные СС Тургенева, Салтыкова-Щедрина, многих других классиков, изданные давным-давно, к которым сканерщики еще не подступали. С такими изданиями работа одно удовольствие.
Цитата:
Вот вроде такое геройское начинание: заслуженное бумажное издательство "Республика" делает

Что тут заслуженного? Как вспомню однотомник А. Платонова этого издательства, так вздрогну. Более 50 грубых опечаток, а по мелочам вовсе без счета.
Цитата:
Касательно 30-томника Чехова, цель и основная направленность проекта продолжают оставаться для меня загадкой.

Что ни говори, а старейшая е-библиотека Пескина (1992 г.) до сих пор остается эталоном. Правда, формат там html, а doc (rtf) передает тонкости текста лучше.
Цитата:
Сложное форматирование в Ворде может быть вполне увлекательным занятием, но как мотивация для меня этого недостаточно. Так что всего лучшего.

А что тут непонятного? Ворд принципиально позволяет воспроизводить текст фотографически. Возможен поиск внутри текста. Элементарно делать выписки. Размер побольше, чем txt или html, зато сильно поменьше, чем djvu / pdf при массе прочих плюсов. И графика инкапсулируема. Получается практически лучший формат. Так и почему с ним не возиться? djvu для ленивых, это я понимаю. Годится как временный полуфабрикат. Но его гораздо труднее сохранить. Закидывают на rapidshare, и через полгода, а то и меньше, файла нету. А doc таким образом не пропадет. Его охотнее принимают в е-библиотеки, он там надежно хранится и по офлайн-коллекциям размножается.
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #33 - 13.07.2006 :: 17:28:54
 
Ворд неплохой формат, кто ж спорит.

Про Республику я только знаю, что они "бывшие" (толи Политиздат, толи Мол.Гвардия). Это обычно значит, что у них в сильно сокращенном штате осталась хотя бы парочка корректоров с профессиональными навыками. Готовить сильно комментированное издание задача не для нервных. Розанова они делают скорее хорошо, чем плохо (за исключением указанных оплошностей - спешка, малый штат, могу представить). Для наглядности можно сравнить Республику с новоявленным тоже вроде специально гуманитарным издательством Захарова. Вот там действительно ужас имеет место. Печатают крайне интересные вещицы из архивов или давно забытого, в ярконьких обложках, но принципиально без комментариев и, кажется, вовсе без корректуры. Делается так скорее всего из соображений окупаемости против труд.затрат. Но такие затеи скорее напоминают эмигрантские издательства-пузыри в каком-нибудь Берлине 20'х годов. Скифы мы, одно слово.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #34 - 14.07.2006 :: 01:03:37
 
primus писал(а) 13.07.2006 :: 17:28:54:
Ворд неплохой формат, кто ж спорит.

Про Республику я только знаю, что они "бывшие" (толи Политиздат, толи Мол.Гвардия).

Только не "Молодая гвардия", которая существует до сих пор. Политиздат или Правда.
Цитата:
Это обычно значит, что у них в сильно сокращенном штате осталась хотя бы парочка корректоров с профессиональными навыками.

Пардон, перепутал со свердловским (екатеринбургским) издательством, - которое издавало Платонова. Оно называется, кажется, Факториал, а не Республика.
Цитата:
Готовить сильно комментированное издание задача не для нервных. Розанова они делают скорее хорошо, чем плохо (за исключением указанных оплошностей - спешка, малый штат, могу представить). Для наглядности можно сравнить Республику с новоявленным тоже вроде специально гуманитарным издательством Захарова. Вот там действительно ужас имеет место. Печатают крайне интересные вещицы из архивов или давно забытого, в ярконьких обложках, но принципиально без комментариев и, кажется, вовсе без корректуры. Делается так скорее всего из соображений окупаемости против труд.затрат. Но такие затеи скорее напоминают эмигрантские издательства-пузыри в каком-нибудь Берлине 20'х годов. Скифы мы, одно слово.

Но шедевром было издание "Лета господня" Шмелева, вернее, почти факсимильное переиздание парижского издания 1925 г. Руки корректора и редактора к этому тексту точно не прикасались. А примечания, единственно добавленные редакцией, - это нечто. Ничего более безграмотного я в моей жизни не видал.
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #35 - 15.07.2006 :: 06:28:50
 
Цитата:
Но шедевром было издание "Лета господня" Шмелева, вернее, почти факсимильное переиздание парижского издания 1925 г. Руки корректора и редактора к этому тексту точно не прикасались. А примечания, единственно добавленные редакцией, - это нечто. Ничего более безграмотного я в моей жизни не видал.


Правда ваша - лучше совсем без комментариев, чем этак позориться. А еще лучше... ну да, но что ж делать.

По теме. Меня тут занесло на англоязычный проект-Гутенберг и по всему видно, что люди нашли какого-то очень стабильного и богатого спонсора, п.ч. проект приобрел весьма внушительные формы, коих ранее он не имел отнюдь впомине. Более того: отец проекта теперь мотается по европам и лично дискутирует с депутатами европейского парламента на предмет послаблений в области оборзевшего копирайта (не буду вдаваться в детали, но общеевропейское законодательство жжот покруче англо-саксов). Не выяснила пока, где это Гутенберг.орг успел взять такой разгон (похоже IBM решил соревноваться с Гуглом в спонсировании высоко-культурных начинаний в интернете: надо же, не прошло и 20 лет).

Но так или иначе. У Гутенберга в шапке теперь висит клич к любому посетителю на предмет приобщиться к армии корректоров-любителей для вычитки текстов. Армия эта не простая, а организованная в три ряда: новички, по несколько на одну книгу в одно время и по собственному усмотрению; потом текст повторно вычитывает более опытный корректор; и уже совсем потом бывалый гутенберговец оформляет текст нужным образом и помещает в библиотеку (уровни подготовки текста называются "бронзовый, серебрянный, золотой"). Статистика: в среднем выкладывается 120 названий в месяц (http://www.pgdp.net/c/stats/stats_central.php).

Это я к тому, что если бывает нужна помощь именно для вычитки (вот как с Чеховым), то можно об этом оповестить всех посетителей библиотеки, вывесив ссылку в навигационной панели сайта. Не знаю, какая у Ершова посещаемость, но наверное вполне себе - 0,5% откликнется, а больше и не надо. Потом можно сколько угодно тормозиться на оформлении, но главное в наличии будет вычитанный текст.
Наверх
 
 
IP записан
 
sad369
Гуру
****
Вне Форума


Всем привет!

Сообщений: 749
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #36 - 17.07.2006 :: 14:46:50
 
Цитата:
Это я к тому, что если бывает нужна помощь именно для вычитки (вот как с Чеховым), то можно об этом оповестить всех посетителей библиотеки, вывесив ссылку в навигационной панели сайта. Не знаю, какая у Ершова посещаемость, но наверное вполне себе - 0,5% откликнется, а больше и не надо.

Замечательная идея. Было бы еще интересно узнать количество посетителей этого форума и подсчитать процент откликнувшихся.
А вопрос о формате вообще непонятно почему возник. Ясно, что все затевалось ради уничтожения опечаток, да восстановления полноты текста (в смысле комментариев, которые занимают по 20-25% бумажных книг). На предложенном ранее диске комментариев нет, а опечаток в избытке. То же и в "машинном фонде". А формат может быть любым, лишь бы текст распознан был Улыбка
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #37 - 17.07.2006 :: 16:32:36
 
С моей стороны вопрос о формате возник, п.ч. наряду с комментированными текстами (в доках) предлагаются некомментированные (в тхт) и непонятно тогда зачем вся бодяга.

Высокую степень достоверности основных текстов можно достичь двойной построчной вычиткой (два корректора), в остальных случаях все равно останется куча ошибок. А в данной ситуации наблюдается стремление к некоей авторитетности электронного издания (полнота и научность источника), но при этом не обеспечиваются условия для достижения оной - усилие велико, но цель ведь не достигается.

Если же убрать зашкаленное стремление к авторитетности, то можно несколько урезать "полноту" в пользу целесообразности: например, оставить за бортом немалый балласт разночтений со специальной графикой (не ради ли нее используется формат дежавю? на экране он довольно жутко смотрится, буквы кривые очень Улыбка, но зато оставить и вычитать литературные комментарии. Их и в чисто текстовых версиях можно оставить (если уж многоязычная История русской философия Зеньковского со всеми ссылками живет в тхт, то беллетрист Чехов тем более должен поместиться).

Процент зашедших на форум из библиотеки по логике вещей должен быть самый ничтожный, поэтому надеяться на форум не стоит. Тут тормозятся люди, которые сами занимаются сканированием, а для вычитки достаточно просто желающих почитать книжку, которые обычно и посещают библиотеки Улыбка
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #38 - 21.07.2006 :: 03:09:18
 
primus писал(а) 15.07.2006 :: 06:28:50:
Это я к тому, что если бывает нужна помощь именно для вычитки (вот как с Чеховым), то можно об этом оповестить всех посетителей библиотеки, вывесив ссылку в навигационной панели сайта. Не знаю, какая у Ершова посещаемость, но наверное вполне себе - 0,5% откликнется, а больше и не надо. Потом можно сколько угодно тормозиться на оформлении, но главное в наличии будет вычитанный текст.

Hoaxer (militera.lib.ru) именно так и делает, и успешно.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #39 - 21.07.2006 :: 18:49:09
 
Vyacheslav_Sachkov писал(а) 21.07.2006 :: 03:09:18:
Hoaxer (militera.lib.ru) именно так и делает, и успешно.


У нас практически только один человек этим занимается. Зато быстро.

ЗЫ. Никто не даст посканированных военных книжек на правку? Подмигивание
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #40 - 21.07.2006 :: 21:52:08
 
О точно, забыла про милитеру, но у них на этот счет статистики не предоставляется и неизвестно, что и как.

amyatishkin писал(а) 21.07.2006 :: 18:49:09:
У нас практически только один человек этим занимается. Зато быстро.


Правкой, в смысле? А сколько книг в месяц выкладывается, если не секрет - и с какой скоростью все происходит (от сырого скана до выкладывания на полку)?
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #41 - 22.07.2006 :: 00:06:59
 
По разному - нормально это где-то 30 шт, зависит всё уже от скорости оформления в хтмл.
Книжка сама может быстро быть сделана - типа с утра засканил, отправил, вечером текст готовый. Но на обновление собирается 15-20-30 шт и здесь они отлеживаются.

А полный цикл где-то трое делаем, в основном. И много народа по 1-10 книжек.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #42 - 22.07.2006 :: 04:29:18
 
amyatishkin писал(а) 21.07.2006 :: 18:49:09:
У нас практически только один человек этим занимается. Зато быстро.

ЗЫ. Никто не даст посканированных военных книжек на правку? Подмигивание

Без шуток? А то ведь и дам.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #43 - 22.07.2006 :: 08:15:14
 
ответил личным сообщением
Наверх
 
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #44 - 24.07.2006 :: 18:58:49
 
amyatishkin писал(а) 22.07.2006 :: 00:06:59:
По разному - нормально это где-то 30 шт, зависит всё уже от скорости оформления в хтмл.
Книжка сама может быстро быть сделана - типа с утра засканил, отправил, вечером текст готовый. Но на обновление собирается 15-20-30 шт и здесь они отлеживаются.

А полный цикл где-то трое делаем, в основном. И много народа по 1-10 книжек.


Интересно, получается совершенно та же статистика и расклад, что и у Гутенберга - только в 10 раз меньше. Значит система естественная, сама собой складывается. Правда, там вряд ли кто-либо за один день правит целую книг :-0

У Ершова заходов где-то 700/900 в день по рейтингу мэйл.ру, пол-процента откликнувшихся от всех посетителей будет 3-5 человек, больше и не надо.
Наверх
 
 
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #45 - 26.07.2006 :: 02:28:08
 
amyatishkin писал(а) 22.07.2006 :: 08:15:14:
ответил личным сообщением

Письмо не поступи Нерешительныйло.
Наверх
 
 
IP записан
 
Novice
Новичок
*
Вне Форума


Всем привет!

Сообщений: 18
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #46 - 26.07.2006 :: 08:26:27
 
Может не в тему, но на практике непрофессионалам действительно лучше работать в 3 этапа (как и в Гутенберге): 1)независимая предварительная вычитка 4-... человеками; 1а) машинная обработка результатов первого этапа с выделением расхождений; 1б)сбивка результатов предварительной вычитки; 2)независимая профессиональная вычитка 2 хорошими корректорами; 2а)машинная обработка результатов второго этапа с выделением расхождений; 2б)сбивка результатов профессиональной вычитки; 3)окончательный монтаж электр. версии. В зависимости от рейтинга корректора возможно сокращение числа этапов или количества участников.
Формат для такой работы наиболее выгоден wiki + кое-что из html: просто и наглядно.
В результате получится текст, содержащий мизерное кол-во очепяток. Надо бы договориться с проектом Гутенберг о предоставлении скриптов для создания аналога?.. Ну и ма-а-ахонький сайтик (Гигабайт этак на 20, как минимум) для нормальной работы такого аналога соорудить.

И насчет оформления: я бы разделил текстовые процессоры на предпечатные и электронные. Если для предпечатных усё понятно: копия бумажного издания, то вот для электронных наблюдается форменный разброд и шатание из стороны в сторону, т.е. официально электронный формат еще не прижился и его как такового нету, и пока что все в массе пользуются предпечатными аналогами (это winword'ы всякие, pagemaker'ы и т.п.). Электронный вариант должен быть по определению свободно без участия оператора трансформируемым в любой другой формат, а как начнешь лазить по описанием не привязанных к печати форматов, они все какие-то недоработанные, точнее для чисто специфических урезанных целей (пример - html, fb2, docbook...).

А насчет копирайтов всяких: вы не беспокойтесь -- это сейчас классику не трогают, а дальше -- нет лицензии (а лицензии на публикацию книг наверно, все же платные, даже на пресловутый "public domain"), нет книги. К тому же если в книге стоит: сверено с авт. рукописями, то текст из этой книги независимо от свободности попадает под охрану ЗОАП. Что-то подобное в ЗОАП наблюдается, подтверждаемое наблюдениями ситуации в "свободном" капиталистическом мире. К тому же в магнитоле (коим по косвенному определению ЗОАП является компутер, а комп.сеть соответственно нечто вроде СМИ) не может храниться библиотека.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #47 - 29.07.2006 :: 05:46:25
 
2 Vyacheslav_Sachkov
Отвечал письмом (nestor(соб.)inetcomm.ru) и лич.сообщением (искать наверху в строке "Здравствуйте...")
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #48 - 08.08.2006 :: 12:48:03
 
primus писал(а) 15.07.2006 :: 06:28:50:
Меня тут занесло на англоязычный проект-Гутенберг...

Восхищения их версиями не разделяю. Еще в ноябре 2005 я открыл здесь на форуме (см. "Эл. библиотеки")тему по Гутенбергу с вложением файла, где поделился своими соображениями (с примерами) по поводу того, что версии данной библиотеки столь же несвободны от ошибок-опечаток, как и у нас. К сожалению, никакого интереса тема не вызвала (ответов - 0).
И мне странно читать здесь про то, что там у них, де, несколько уровней контроля. Либо у "семи нянек..."
Наверх
« Последняя редакция: 08.08.2006 :: 12:59:55 от Gautier »  
 
IP записан
 
primus
Новичок
*
Вне Форума


Всем привет!

Сообщений: 38
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #49 - 12.08.2006 :: 10:14:15
 
Gautier писал(а) 08.08.2006 :: 12:48:03:
Восхищения их версиями не разделяю. Еще в ноябре 2005 я открыл здесь на форуме (см. "Эл. библиотеки")тему по Гутенбергу с вложением файла, где поделился своими соображениями (с примерами) по поводу того, что версии данной библиотеки столь же несвободны от ошибок-опечаток, как и у нас. К сожалению, никакого интереса тема не вызвала (ответов - 0).
И мне странно читать здесь про то, что там у них, де, несколько уровней контроля. Либо у "семи нянек..."


Поиск ничего не выдал. Дайте ссылку.
Касательно ответов в темах: тут просто маленький форум, а год назад наверное был и того меньше.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #50 - 15.08.2006 :: 12:15:10
 
primus писал(а) 12.08.2006 :: 10:14:15:
Поиск ничего не выдал. Дайте ссылку.

Какой еще поиск? Глазами видно: "Электронные библиотеки" - стр. 2 - "Версии американской... Гутенберг" - вложение (может, правда, там Гутенберг с двумя "т" случайно). Но я ведь указал выше, что в разделе "Эл. библиотеки".
Наверх
 
 
IP записан
 
MT
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #51 - 06.10.2006 :: 16:47:25
 
К вопросу об опечатках. Лично меня они ужасно раздражают, и я много занимаюсь вычиткой и исправлениями, потом выкладываю, правда, в FB2, на Fictionbook и Альдебаране. И Чехова вычитывать, конечно, буду.
Обидно только, что на мой призыв отсканировать книги, которые я мог бы вычитать, на этом форуме откликнулся только один человек, но потом куда-то исчез после нескольких книг.
Может, кто взглянет?
http://publ.lib.ru/cgi/forum/YaBB.pl?num=1126725039/0#0
Достоевского два тома вычитал из 15 (3-ий и 5-ый) c rvb.ru. Если кому надо.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 888
Россия
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #52 - 06.10.2006 :: 20:36:37
 
MT писал(а) 06.10.2006 :: 16:47:25:
Достоевского два тома вычитал из 15 (3-ий и 5-ый) c rvb.ru. Если кому надо.

И спрашивать нечего. Кидайте в "Книги для библиотек", с пометкой взято там-то, вычитано тем-то.

Литература должна широко распространяться! Особенно качественная!
Наверх
 
WWW  
IP записан
 
imwerden
Новичок
*
Вне Форума



Сообщений: 32
Мюнхенъ
Пол: male
Re: Чехов А. П. Собр. соч. в 30 томах
Ответ #53 - 13.10.2006 :: 13:31:51
 
Lykas писал(а) 08.06.2006 :: 10:12:33:
У меня проблема - не могу перевести DJVU в другой формат для распознавания, на диске 3 ГБ свободных, но места для распаковки не хватает.



Тип: поставил Ghostprinter и распечатал djvu как pdf, а затем засунул в FR.
Наверх
 

Электронная библиотека ImWerden&&http://imwerden.de
WWW  
IP записан
 
Страниц: 1 
Послать Тему Печать