КРАТКИЙ FAQ ПО КОНВЕРТАЦИИ ИЗ ФОРМАТОВ
                  WORD-А (DOC, RTF) И HTML В ФОРМАТ TXT
                                  v1.0a




     Требования: наличие FAR (желательно поновее), Word, IE.

--------------------------------------------------------------------------
     Q: Как правильно сконвертировать текст из Word-а в формат TXT?

     A: Перво-наперво - забыть напрочь и бесповоротно  про  сохранение  из
Word-а в режимах "текст с  форматированием"  и  "текст  с  форматированием
MS-DOS". Присутствует глюк Word-а начиная по крайней мере с  Office  97  и
заканчивая  Office  XP.  Как  результат  -  с  определенным  интервалом  в
сохраненном тексте портится первое слово в строке.  Восстановить  подобный
текст впоследствии однако все же можно.

     1. Выделить весь текст в Word-е.

     2. Через меню Word-а Сервис/Язык/Выбрать язык - выбрать русский язык.
(иначе в некоторых случаях могут быть запорчены начала некоторых абзацев).

     3. В некоторых текстах вместо многоточия "...",  состоящего  из  трех
точек, используется символ  (вызываемый,  по  крайней  мере  в  Office  XP
комбинацией клавиш "Alt+Ctrl+.") Крайне рекомендуется заменить при  помощи
поиска с заменой этот символ на 3 обычных точки. (иначе вместо  многоточия
после конвертирования получим ":")
     Кроме  этого,  например,  в  текстах   с   сайта   www.bestlibrary.ru
присутствует последовательность символов "..,"  которую  было  бы  неплохо
заменять на "..."

     4. Убрать из текста переносы  (если  есть).  Тут  возможны  несколько
вариантов.

     Если использовалась автоматическая расстановка переносов:
     В меню "Сервис" выделите  пункт  "Язык",  а  затем  выберите  команду
"Расстановка  переносов".  Снимите  флажок   "Автоматическая   расстановка
переносов".

     Если расстановка переносов производилась вручную:

     Выберите команду "Заменить" в меню "Правка".
     Если в диалоговом окне не видна кнопка "Специальный", нажмите  кнопку
     "Больше".
     Нажмите  кнопку  "Специальный",  а  затем  выберите   пункт   "Мягкий
     перенос". 
     Поле "Заменить на" не заполняйте. 
     Нажмите кнопку "Найти далее", "Заменить" или "Заменить все". 
     Чтобы прервать начатый поиск, нажмите клавишу ESC.

     5. Проверить наличие в тексте таблиц и картинок. Что с ними делать  -
вопрос  щекотливый.  Конечно,  таблицы  -  вещь  нужная.   Поэтому   нужно
попытаться как-нибудь сохранить их после конвертирования. Хотя  бы  и  при
помощи построения рамки из  каких-либо  символов.  Псевдографику,  однако,
использовать крайне не рекомендуется.
     О картинках. Тут все зависит от того, как она была вставлена в текст.
Если картинки были импортированы в Word, к примеру, из Photoshop-а, то для
выдергивания картинок из текста оный Photoshop и будет  собственно  нужен.
Хотя в отсутствие Photoshop-а мне однажды помог плугин к FAR-у FAR DocFile
Browser Plugin v1.00 Beta 4 - позволяющий входить в документы Offic-а  как
в архивы. Внутри документа был найден файл content,  скопирован  наружу  и
переименован  с  расширением   .psd.   После   чего   был   просмотрен   и
сконвертирован через ACDSee. Иногда может  помочь  следующее:  скопировать
выделенную в Word-е картинку в буфер и вставить ее потом в ACDSee.

     6. Выделить весь текст в Word-е.

     7. Скопировать его в буфер обмена.

     8. Создать в FAR-е новый файл в  кодировке  DOS  и  вставить  в  него
содержимое буфера обмена.
     Как результат - получаем файл  в  кодировке  DOS,  где  каждый  абзац
вытянут в одну строку.
     Если начала абзаца предваряются последовательностью  пробелов,  можно
удалить ее при помощи поиска с заменой.

     9. Форматировать полученный текст с помощью утилиты, к примеру, Славы
Алексеева PRK-TEXT v 2.0 - в режиме "разбить на  строки".  Из  недостатков
утилиты (хотя возможно и достоинств ;)) - утилита не выравнивает текст  по
правому краю, и заменяет символы  "<",  ">"  на  кавычки,  что  не  всегда
полезно (к примеру, в тексте встречаются комментарии, заключенные именно в
треугольные скобки).
     Я же, например, пользуюсь для форматирования текста утилитой by  LLeo
WORD_LST.COM (http://www.aha.ru/~lleo).  К  тому  же  утилиту  LLeo  можно
вызывать из bat-файла, что бывает полезно при  массовой  обработке  файлов
(об этом ниже).
     Не помешает проконтролировать в полученном  файле  символ  "ё"  (йо),
тире в начале строки, кавычки.
     Этот  способ  поможет  избежать  геморроя  с  конверторами  различных
кодировок.

     10. Отформатировать при желании названия глав, частей и т.д. вручную.
--------------------------------------------------------------------------
     Q: Как сконвертировать из HTML в формат TXT?

     A: Принцип в общих чертах такой же, как и для Word-а. Выделяем в окне
Internet Explorer-а весь текст и вставляем его  в  редакторе  Far-а.  Если
html-файлов  много,  можно  воспользоваться  утилитой  LLeo  HTML_LST.COM,
вызываемой из bat-файла в цикле. Правда кодировка html должна быть Win.
--------------------------------------------------------------------------
     Q: Как переформатировать текст DOS?

     A:   Бывают   случаи   когда    требуется    переформатировать    уже
отформатированный текст DOS. Например, чтобы убрать переносы. Или изменить
число символов в строке. Или подготовить текст для загрузки в Word.
     В  этих  случаях   я   пользуюсь   утилитой   by   LLeo   PREWORD.COM
(http://www.aha.ru/~lleo).
     Так же может вызываться из bat-файла.
     Что делает утилита -  вытягивает  абзацы  в  одну  строку,  корректно
убирает переносы и конвертирует текст в кодовую страницу Windows.
     Единственная неприятная особенность этой  утилиты  -  не  все  тексты
конвертируются корректно. Для устранения чего  и  пришлось  ее  пропатчить
(sorry, LLeo), путем отключения конвертора. Теперь, при подготовке  текста
для загрузки в Word, придется сначала прогнать его  через  PREWORD.COM,  а
потом сменить кодировку. 
     Если в файле  абзацы  разделяются  пустыми  строками  -  я  пользуюсь
утилитой того же LLeo - ENTER.COM.
     Также  есть  новая  неплохая  утилита  -   Background   Text   Editor
(http://mitglied.lycos.de/alonzo999/textedit/TextEdit.rar)
     Довольно неплохие возможности по  конвертации/форматированию  текста.
Но она у меня  почему-то  убирала  дефисы  в  середине  слов.  А  переносы
обрабатывает неплохо.
--------------------------------------------------------------------------
     Q: Как сменить кодировку текста?

     A: Для смены кодировок я пользуюсь утилитой XLAT. Поддерживает  очень
много кодировок. Хотя подобных утилит есть огромное множество. В том числе
и уже упомянутая утилита Алексеева PRK-TEXT v  2.0.  Главное  -  проверить
правильность конвертирования некоторых символов (тире, кавычки, буквы  "ё"
(йо))
--------------------------------------------------------------------------
     Q: Как обработать несколько файлов за один раз?

     A: При больших количествах обрабатываемых файлов  можно  использовать
пакетную обработку файлов.
     В  частности  это  может  помочь  при  смене  кодовой  страницы,  при
перепаковке из одного типа архива в другой и т.д..

     Пример для конвертации из win кодировки в dos:

     создаем файл win2dos.bat с содержимым:
     md result
     for %%f in (*.txt) do call win2dos1.bat %%f

     создаем файл win2dos1.bat с содержимым:
     xlat /win2dos %1 result\%1

     При запуске win2dos.bat для каждого файла с  расширением  .txt  будет
запущена утилита xlat c  ключом  /win2dos  и  результат  будет  помещен  в
директорию result.
--------------------------------------------------------------------------



     Автор данного текста приветствует любые добавления к faq
     Шлите  вопросы  и  ответы  которые  вы  хотите   включить   сюда   на
     home_library(at)chat.ru
     Крайне будут приветствоваться также ссылки на разные полезные утилиты
     по обработке текста, методики OCR и т.д.

     (c) Home Library 2002