OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Представление книг в "txt" (Прочитано 5629 раз)
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Представление книг в "txt"
18.08.2005 :: 11:17:51
 
А где можно найти рекомендации по представлению книг в txt? Именно представление: как они должны верстаться, где что должно быть, всякие дефисы/ тире/пробелы/кавычки и т.д. Просто мне кажется, что книги, в которых форматирование не важно, лучше в голом тексте представлять — размер меньше. Я прав?
С вордом вроде разобрался, хотя верстать в нем — то еще занятие. Мне проще всего было бы в QuarkXPress книги делать — раз в десять быстрее получается.
Кстати, а нет ли под РС программ, автоматически расставляющих всякие неразрывные пробелы и т.д.? На маке я «Юниспеллом» пользуюсь и он, кстати, работает также с вордом. Хотя он и не совершенен. Может что-то подобное и для РС имеется?
Наверх
« Последняя редакция: 18.08.2005 :: 11:26:51 от Antikwar »  
 
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 659
Re: Представление книг в "txt"
Ответ #1 - 18.08.2005 :: 23:20:43
 
По поводу правил верстки расказывал Zmiy. Ссылка на титуле Библиотеки.
Облегчить жизнь могут программы:
Иероглиф - текстовый редактор. Есть функция Исправлять ошибки после OCR. Только очень долго думает.
Есть набор макросов для Worda.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: Представление книг в "txt"
Ответ #2 - 19.08.2005 :: 16:49:14
 
Если имеется в виду FAQ, то я его просмотрел, но  в нем мало информации по, собственно, форматированию текстов.

Уточню тогда свои вопросы.

1.      В какой кодировке имеет смысл представлять текстовые файлы (dos, win, koi8-r etc.)?
2.      Нужно ли делать разбивку на строки и выравнивание?
3.      Оформление абзацного отступа (нужно ли его оформлять пробелами и каково должно быть их количество)?
4.      Оформление заголовков и подзаголовков. Количество строк отбивки (пустых абзацев) в каждом случае.
5.      Тире. Оставлять дефис вместо тире или же делать двойное тире?
6.      Как оформлять аннотацию и прочую служебную информацию чтобы облегчить жизнить библиотекарям и прочим, занимающимся сортировкой книг.
7. Как прилагать иллюстрации (если, конечно, возникнет такая необходимость - текстовый файл с прилагаемыми иллюстрациями)?

Возможно что-то еще.

За «Иероглиф» спасибо. Сейчас скачиваю. Посмотрю на досуге. Пока для конвертирования в текст попробовал Zd2t – понравилось. Правда минут 20 вспоминал как делались bat-файлы. Улыбка
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Представление книг в "txt"
Ответ #3 - 22.08.2005 :: 00:13:52
 
Я делаю 2 формата - оформляю всё в RTF, а из него TXT с помощью некой программы zd2t.

ТХТ:
1. Кодировка - на любителя. Лучше WIN, но можно и DOS. Я TXT делаю в DOS кодировке, т.к. она распространена в файл-эхе FIDO BOOK. Для любителей WIN - форматы DOC/RTF - они прекрасно открываются в Windows. Преимущество WIN - длинные, короткие тире, кавычки-елочки...

2. Разбивка на строки - на любителя. Кому надо сможет сделать разбивку под свой размер строки. Но лучше сделать самому, т.к. корректно сформируются выравнивания и центровки. Я делаю строки длиной 76 символов для совместимости с текстами из lib.ru.

3. Абзацный отступ - лучше делать пробелами. Я делаю 5 пробелов для совместимости с текстами из lib.ru.

4. Заголовки - НУЖНО делать уникальный отступ для отличия их от простого текста или стихов. Я делаю 2 перевода строки (ПС) от предыдущего текста и один ПС до следующего для любых типов заголовков, в т.ч. ***. Стихи и другие центровки (например описания после двоеточий - надписи на плакате, дверях идр.) - 1ПС с двух сторон.
Кроме того я делаю 2ПС отступ между логическими частями текста, для которых не указаны заголовки. Некоторые считают это аналогом ***, но я в текстах встречаю и то, и другое на одной странице. И не путайте логические части текста от, например, цитирования писем - там 1ПС с обоих сторон.

5. Тире - НУЖНО ставить одно тире в любом случае! Если формат WIN, то можно постараться и сделать интеллектуальным поиском-заменой длинные-короткие тире, красивые кавычки... Всякие извращения типа "двойных тире" считаю маразмом, т.к. это только увеличивает размер текстов. Может по аналогии по две кавычки будем лепить, чтобы отличить "елочки" от обычных?.. Вы где-нибудь в бумажных книгах видели "--" такое или может в школе Вас учили ставить лишние знаки?! Умные программы переконвертирования текстов (TXT->DOC) прекрасно разберутся где ставить длинное тире, а где дефис.

6. Аннотация и др.инф. - я придерживаюсь следующего порядка - ФИО автора, Название, Серия-Том-и-др., Переводчик, другая инф. о произведении (например год написания, хотя его обычно указывают в конце Текста) и книге-источнике (на любителя), Анонс, Содержание-Оглавление (на любителя + см. ниже), Текст, Примечания-Комментарии.
Всякие другие перестановки этих элементов или вынос их в другие файлы лично меня просто б-бесят!
На кой черт делать Анонс в конце текста - человек файлы не с конца читает! Тем более человеку достаточно прочитать вначале анонс и делать вывод - качать-читать книгу или нет. А так он в любом случае будет скачивать всю книгу, так еще анонса вообще может не оказаться. И уж на кой ему анонс в конце книги, если он ее прочитал...
На кой черт делать Содержание в конце книги - аналогично. Это не бумажная книга, которую можно крутить-вертеть как хочешь, а тут весь файл листай-прыгай-ищи есть там анонс и др. или нет, так еще всю нужную информацию могут поместить в куче с рекламой (как тут в Дюме). Некоторые вообще не вычитывают анонс и содержания (примеры на www.fantast2.com) - зачем тогда вообще такой мусор в тексте?!
Еще по Содержанию - если сборник рассказов и т.п., то тут обязательно НУЖНО Содержание. Если его не было - сделать самому. Иначе потом люди сканируют отдельные рассказики, хотя уже давно могут быть отсканированы сборники с этими рассказами.

7. Картинки - если есть - делать. Форматы jpg/gif/png. Картинки пригодятся тем, кто захочет сделать например HTM для онлайн чтения или переделать в другой формат.
Если нет привязки картинок к тексту (например на вкладках), то картинки отдельно можно положить. Если есть привязка картинок к тексту (например схемы и др.), то в TXT нужно указать имя файла-картинки, например в скобках [pic1.gif]. Если оформлять в WORDе, а потом конвертить в TXT программой zd2t, то она умеет ставить ссылки на картинки. Сами картинки можно получить из DOC/RTF файла, сохранив из WORDа в htm.

Про Ворд - там есть такое понятие "макросы". Запишите кучу любимых действий по оформлению, поиску-замене и др. и все будет быстро выполняться. У меня нажатием одной кнопки-макроса происходит форматирование голого текста (строка-абзац) по рекомендациям Готье. Плюс куча кнопок для коррекций оформления.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: Представление книг в "txt"
Ответ #4 - 22.08.2005 :: 14:04:53
 
Спасибо за такой подробный ответ.

Zmiy писал(а) 22.08.2005 :: 00:13:52:
Я делаю 2 формата - оформляю всё в RTF, а из него TXT с помощью некой программы zd2t.

zd2t я уже оценил. Не совсем ясно было с форматированием текста, как правильно делать.

Zmiy писал(а) 22.08.2005 :: 00:13:52:
5. Тире - НУЖНО ставить одно тире в любом случае! Если формат WIN, то можно постараться и сделать интеллектуальным поиском-заменой длинные-короткие тире, красивые кавычки... Всякие извращения типа "двойных тире" считаю маразмом, т.к. это только увеличивает размер текстов. Может по аналогии по две кавычки будем лепить, чтобы отличить "елочки" от обычных?.. Вы где-нибудь в бумажных книгах видели "--" такое или может в школе Вас учили ставить лишние знаки?! Умные программы переконвертирования текстов (TXT->DOC) прекрасно разберутся где ставить длинное тире, а где дефис.

Чувствуется, что наболело.  Улыбка Я тоже не сторонник всех этих извращений, но т.к. мне регулярно попадались в сети книги оформленные подобным образом, то я счел своим долгом навести справки – а вдруг это кому-то для чего-то нужно?


Zmiy писал(а) 22.08.2005 :: 00:13:52:
6. Аннотация и др.инф. - я придерживаюсь следующего порядка - ФИО автора, Название, Серия-Том-и-др., Переводчик, другая инф. о произведении (например год написания, хотя его обычно указывают в конце Текста) и книге-источнике (на любителя), Анонс, Содержание-Оглавление (на любителя + см. ниже), Текст, Примечания-Комментарии.
Всякие другие перестановки этих элементов или вынос их в другие файлы лично меня просто б-бесят!

То, что анонс и содержание, а равно имя переводчика надо ставить вначале для меня ясно. А вот по поводу остальной информации (издательство, название оригинала, год написания, количество листов и пр.) – не совсем уверен. Помнится, я когда только начал электронные книги читать, то всю «вторичную» информацию, находящуюся вначале книги попросту удалял. Если же она была в конце – не трогал, там она мне не мешала.  Улыбка Так что даже не знаю что лучше.
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Представление книг в "txt"
Ответ #5 - 22.08.2005 :: 15:22:55
 
Цитата:
zd2t я уже оценил. Не совсем ясно было с форматированием текста, как правильно делать.

Без доп.опций программа форматирует текст с параметрами по умолчанию. Если нужны другие параметры - чтайте readme.txt...

Цитата:
поводу остальной информации (издательство, название оригинала, год написания, количество листов и пр.)

С т.зр. читателя - это ненужный мусор. Сколько я книжек прочел, никогда не обращал внимания на выходные данные книг.
Такая инф. может быть полезна каким-нибудь библиографам или научным работникам, которым нужно делать ссылки на цитаты и др.

Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Представление книг в "txt"
Ответ #6 - 22.08.2005 :: 15:34:02
 
Zmiy писал(а) 22.08.2005 :: 00:13:52:
Я делаю 2 формата - оформляю всё в RTF, а из него TXT с помощью некой программы zd2t.

ТХТ:
1. Кодировка - на любителя.

......

Про Ворд - там есть такое понятие "макросы". Запишите кучу любимых действий по оформлению, поиску-замене и др. и все будет быстро выполняться. У меня нажатием одной кнопки-макроса происходит форматирование голого текста (строка-абзац) по рекомендациям Готье. Плюс куча кнопок для коррекций оформления.


Cо всем согласный, кроме выходных данных книги - мне, как библиофилу они очень интересны, особенно оригинальное название
Ну это личное...

А можно ли получить макрос по мотивам инструкции Готье?
(с инструкцией текст какого вида ему скармливать)

ЗЫ А еще где-то я читал о чудо-плагине для FAR, который вылавливает ошибки типовые....
Можно ли и его как-нибудь заполучить для усовершенствования качества OCR?
(я даже готов FAR установить, хотя фаровские плагины и Тотал Коммандеру вроде как можно прицепить)
Наверх
 
WWW 67730822  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Представление книг в "txt"
Ответ #7 - 24.08.2005 :: 10:18:37
 
Цитата:
А можно ли получить макрос по мотивам инструкции Готье

Там кое-что добавить нужно... В сентябре постараюсь выложить...
Цитата:
о чудо-плагине для FAR, который вылавливает ошибки типовые

Я не готов выкладывать свой плугин. Он сделан на коленке, практически состоит из двух плугинов, очень много ограничений на вх.формат, настройки меняются перекомпиляцией, кое-что криво сделано, кое-что не добавлено...
Красивее было бы сделать его по типу AfterScana, т.е. в оконной программе, на основе какого-нибудь RTF-компонента, плюс удобное изменение настроек и др. Увы, нет времени на написание - занят на основной работе плюс сканы... Если бы был свободный программист... Подмигивание
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: Представление книг в "txt"
Ответ #8 - 24.08.2005 :: 10:31:06
 
Сообщения о программе AfterScan были перенесены в тему AfterScan: копилка опыта
Наверх
« Последняя редакция: 25.08.2005 :: 14:19:30 от Zmiy »  

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re from Gautier: Представление книг в "txt"
Ответ #9 - 29.08.2005 :: 16:14:34
 
ЦИТАТА 1 (забыл, как автоцитировать):
«Тире - НУЖНО ставить одно тире в любом случае! Если формат WIN, то можно постараться и сделать интеллектуальным поиском-заменой длинные-короткие тире, красивые кавычки... Всякие извращения типа "двойных тире" считаю маразмом, т.к. это только увеличивает размер текстов. Может по аналогии по две кавычки будем лепить, чтобы отличить "елочки" от обычных?.. Вы где-нибудь в бумажных книгах видели "--" такое или может в школе Вас учили ставить лишние знаки?!»

ОТВЕТ
В принципе можно согласиться, поскольку задачи «усеченной» версии, которая в TXT, только донести необходимую информацию. В подобных случаях строгие правила оформления русскоязычных текстов можно и не соблюдать (кавычки и кавычки, тире так тире, пусть и дефисом — поймут, это почти всегда не информация, а условные правила). За исключением авторских выделений (курсив или разреженный текст), которые обязательно надо как-то помечать. Непонятно только, причем тут «бумажные книги», ведь электр. версия — это не книга, да и разговор шел не о «лишних знаках», а о необходимости средствами TXT пытаться максимально приблизиться к лингв. особенностям текста. Впрочем, про эти особенности применит к усеч. версии см. начало ответа.

ЦИТАТА 2
(По поводу остальной информации (издательство, название оригинала, год написания, количество листов и пр.)
Zmiy: «С т.зр. читателя - это ненужный мусор. Сколько я книжек прочел, никогда не обращал внимания на выходные данные книг. Такая инф. может быть полезна каким-нибудь библиографам или научным работникам, которым нужно делать ссылки на цитаты и др.».

ОТВЕТ
А Вы что, только для дошкольников лепите OCR-ы, что ли? По поводу же того, что Zmiy никогда не обращал внимания на выходные данные книг, ответим темой картинки покойного Васи Дубова: «Десять лет хожу в этот пивбар, но никак не могу познакомиться с хорошей девушкой».
Не следует возводить в абсолют собственный странный любительский подход (не исполнение!) к не совсем любительскому делу. Не «с точки зрения читателя», а с точки зрения Zmiy. Поэтому зря Ustas так скромен насчет данного вопроса, застенчиво относя его к каким-то «личным» чудачествам.

Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: Представление книг в "txt"
Ответ #10 - 30.10.2005 :: 00:10:19
 
А можно получить макрос по мотивам инстуркции Готье?
Zmiy писал(а) 24.08.2005 :: 10:18:37:
Там кое-что добавить нужно... В сентябре постараюсь выложить...


ЗЫ Октябрь уж на исходе  Круглые глаза
Наверх
 
WWW 67730822  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать