Estarriol
Новичок
Вне Форума

Всем привет!
Сообщений: 5
|
Лично я вот совершенно случайно набрёл на этот сайт... на котором так же неожиданно оказался зарегистрированным.
Ну а теперь по делу. Мой основной инструмент -- это регулярные выражения (PowerGREP3). Позволяет создать неограниченный список поисков\замен, который потом можно применить... Плюс вычитка глазками и правка лапками...
Ключевой момент, который на последней книге (И.Вороницын, "История атеизма", 1930г., 895стр.) стал актуален -- это статистический анализ текста, причём, желательно, с учётом морфологии русского языка. Поясню: видимо молодая советская республика корректуры в должном объеме не обеспечила, в результате в книге встречаются самые разные варианты, как то -- "мало-по-малу" и "мало по малу", "то-есть" и "то есть", "т.-е." и "т. е.", не говоря уже о "эксплоатация", "итти", "вростать" и т.д. и т.п. Необходим статистический анализ массива текста, когда на выходе мы бы получали группы схожих слов и сразу было бы понятно, что чаще всего писалось "мало-по-малу", а без дефисов это сочетание набрано три раза из-за лености наборщика. Соотв., унифицируем... понятно к чему веду? Тут вордовский, да и любой другой спелчекер рехнулся бы давно.
Далее, актуальна проблема конветирования. Я на выходе сделал UTF8 HTML, поскольку парсить его регулярными выражениями и корректировать одно удовольствие (напр., при использовании BabelPad). Сноски -- в {...}. А потом хотелось бы превратить всё это дело в RTF или WORD, чтобы получить нормальные, человеческие сноски. Можно, конечно конвертнуть HTML в XML, где вместо {} -- <footnote></footnote>, но толку с этого никакого. Один хрен.
Так вот -- ни одного такого конвертера НЕТ. Одни грешат ПОЛНЫМ уничтожением диакритических знаков в этом самом Unicode (которые я бережно сохранял при сканировании), другие, как тот же Ворд, тупо конвертят HTML в RTF. Как мне там получить сноски не переделывая их ручками -- непонятно.
Вот вам и две основных проблемы.
Программку пока не тестил, может посмотрю вечером. Хотя б lookahead\lookbehind реализован?
|