OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
CLTXT. Копилка опыта (Прочитано 4761 раз)
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
CLTXT. Копилка опыта
19.10.2005 :: 11:14:07
 
Попробовал вчера данную прогу. Вопросы и замечания:

1. Программа стабильно "вылетает" с ошибкой. Независимо от системы (пробовал на win XP и win 98). Происходит это на этапе сохранения файла, но работу свою вроде делает и файл таки сохраняет.

2. Как наиболее рационально делать OCR, используя данную программу. Делал по инструкции: отсканировал с делением на страницы, заменил мягкие переносы, сохранил как текст. При этом в Файнридере невозможно делать проверку, так как он останавливается на всех словах с переносами. Отключил проверку орфографии и смотрел только неуверенно распознанные символы. К сожалению при таком методе работы теряется курсив, длинные тире и прочие "прелести". С курсивом не проблема, так как его все равно проще и быстрее восстановить чем вручную проверять абзацы. Воспользовался программой Афтерскан и тут она мне показалась полезной, так как все знаки препинания восстановила вроде как хорошо. Но возникает у меня вопрос: как лучше организовать работу (этапы, их последовательность, используемые инструменты) чтобы не терять зря время и при этом не напортачить.

PS. На данной книге экспериментировать не боюсь, т.к. книга - дрянь. Улыбка
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: CLTXT. Копилка опыта
Ответ #1 - 19.10.2005 :: 16:27:24
 
Цитата:
Программа стабильно "вылетает" с ошибкой

"Стабильно вылетает", только если у Вас не установлен MSWord либо установлен MSWord XP/2003 - там алгоритм обращения к функциям проверки орфографии не совпадает со старым...
Попробуйте поставить http://zpdd.chat.ru/files/spellset.exe - эта программа устанавливает старые вызовы для проверки орфографии через Word. Но мне кто-то говорил, что при этом возникают какие-то проблемы с проверкой орфографии в самом Wordе...
Проверка орфографии от MSOffice применяется для коррекции слов с переносами и дефисами.

Цитата:
Как наиболее рационально делать OCR, используя данную программу.

Хм... Какую версию используете? В readme.txt версии 2.04 достаточно много написано про требования и рекомендации.
Для корректной работы программы распознавать текст нужно с включенными опциями "Форматированный пробелами текст", "Сохранять деление на строки", "Разделять страницы символом конца страницы". Плюс включите "Максимальный" "Уровень выделения ошибок".
После распознавания пройдитесь по всем страницам и визуально просмотрите на те ошибки, которые выделил цветом ФР. Плюс присматриваться к левой границе страницы - число пробелов для анализа абзацных отступов в программе cltxt больше одного (2, 3, ...). Поэтому нужно не допускать этого уже в ФР. Это часто происходит на скошенных страницах.
При работе программа cltxt будет спрашивать про ненайденные в словарях слова - что ставить дефис или без...
После пропуска текста через cltxt пройдитесь по тексту для коррекции отступов заголовков, оформления сносок и нераспознанных слов (отмечены знаком #).

Цитата:
При этом в Файнридере невозможно делать проверку

Это проблема ФР. Я им писал об этом, когда они спрашивали что исправить/добавить в версии 8. Они не исправили.

Цитата:
К сожалению при таком методе работы теряется курсив

Это проблема ФР. Я им писал об этом, когда они спрашивали что исправить/добавить в версии 8. Они не исправили.

Цитата:
длинные тире

Это правится на последнем этапе оформления. Длинные тире можно расставлять автоматически - это не курсивы...

Цитата:
Воспользовался программой Афтерскан

Так и надо. Ее функции аналогичны и даже больше по сравнению со встроенной проверкой в ФР (без учета неуверенностей).

Цитата:
так как все знаки препинания восстановила вроде как хорошо

Знаки препинания прекрасно правит cltxt.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: CLTXT. Копилка опыта
Ответ #2 - 19.10.2005 :: 16:50:25
 
Во-первых, спасибо за подробный ответ.

Zmiy писал(а) 19.10.2005 :: 16:27:24:
"Стабильно вылетает", только если у Вас не установлен MSWord либо установлен MSWord XP/2003 - там алгоритм обращения к функциям проверки орфографии не совпадает со старым...

Ага! Должно быть, это оно и есть! В ХР установлен 2003-й, а в 98 - никакого (это я уже в состоянии паники был и не подумал об отсуствии ворода в вин98).

Цитата:
Проверка орфографии от MSOffice применяется для коррекции слов с переносами и дефисами.

Тем не менее, программа работала и переодически предлагала нажать Y/N. Мне, кстати, работать так с ней понравилось. Аскетичный, но вместе с тем, удобный и ненавязчивый интерфейс. Главное, кнопки не перепутать. Улыбка

Цитата:
Хм... Какую версию используете? В readme.txt версии 2.04 достаточно много написано про требования и рекомендации.

Видимо, последнюю. readme.txt читал
и
Цитата:
"Форматированный пробелами текст", "Сохранять деление на строки", "Разделять страницы символом конца страницы". Плюс включите "Максимальный" "Уровень выделения ошибок".

сделал.

А вот:
Цитата:
После распознавания пройдитесь по всем страницам и визуально просмотрите на те ошибки, которые выделил цветом ФР. Плюс присматриваться к левой границе страницы - число пробелов для анализа абзацных отступов в программе cltxt больше одного (2, 3, ...). Поэтому нужно не допускать этого уже в ФР. Это часто происходит на скошенных страницах.
При работе программа cltxt будет спрашивать про ненайденные в словарях слова - что ставить дефис или без...
После пропуска текста через cltxt пройдитесь по тексту для коррекции отступов заголовков, оформления сносок и нераспознанных слов (отмечены знаком #).

Полезно было прочитать. Улыбка

Цитата:
Это правится на последнем этапе оформления. Длинные тире можно расставлять автоматически - это не курсивы...

Да, это не проблема.

Цитата:
Знаки препинания прекрасно правит cltxt.

Тоже не знал.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: CLTXT. Копилка опыта
Ответ #3 - 25.10.2005 :: 10:13:26
 
Докладываю дальше. После установки в win98 предпоследнего оффиса (MS Office XP) ничего не изменилось - по завершении работы программы вылетает с сообщением об ошибке, но работу свою делает. Правда почему-то последний раз не обработала первый абзац текста. Текста было много - книга насчитывает более 500 страниц.

И еще пару вопросов.
1. Как лучше для него оформить сноски в FR, в отдельном блоке или же в одном блоке с основным текстом?
2. Насколько она (cltxt) точна? Есть ли необходимость ручной проверки абзацев после обработки текста?
Наверх
 
 
IP записан
 
Zmiy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 106
Минск
Пол: male
Re: CLTXT. Копилка опыта
Ответ #4 - 25.10.2005 :: 14:27:01
 
Цитата:
После установки в win98 предпоследнего оффиса (MS Office XP) ничего не изменилось -

См.выше... Я написал где не работает (в ХР тоже не работает!) и что рекомендуется скачать и установить...
Цитата:
Правда почему-то последний раз не обработала первый абзац текста

Странно... Обычно первый абзац - это ФИО автора... Подмигивание Там нечего править...
Лучше все-таки добейтесь, чтобы не вылетала с ошибкой...
Цитата:
Как лучше для него оформить сноски в FR

Автоматически распознаются сноски внизу страницы и начинающиеся со *. При этом не проверяется правильная расстановка * внутри текста.
Блоки не важны, т.к. "блоки" в тхт не попадают, а вот символ конец страницы попадает.
Такие сноски отделяются ___________, но Вам самим нужно ручками после этого корректировать в тот вариант, который Вам нравится (вставлять в [], делать подстраничными, послеабзацными или в конце текста).
Цитата:
Насколько она (cltxt) точна? Есть ли необходимость ручной проверки абзацев после обработки текста?

Если Вы внимательно делали в ФР это -
Цитата:
Плюс присматриваться к левой границе страницы - число пробелов для анализа абзацных отступов в программе cltxt больше одного (2, 3, ...).

- то абзацы будут правильные и их проверять нет смысла.
Вам останется только поправить отступы глав и др., если это не делали в ФР.
Наверх
 

http://zpdd.chat.ru - Сканирование литературы
WWW  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: CLTXT. Копилка опыта
Ответ #5 - 25.10.2005 :: 16:02:34
 
Zmiy писал(а) 25.10.2005 :: 14:27:01:
См.выше... Я написал где не работает (в ХР тоже не работает!) и что рекомендуется скачать и установить...

Каюсь. Почему-то у меня отложилось, что не работает с последним оффисом. Надо где-нибудь постарше поискать.

Цитата:
Странно... Обычно первый абзац - это ФИО автора... Подмигивание Там нечего править...

Имелся в виду первый полноценный абзац, то есть первый абзац имеющий более одной строки. Выглядело так:
Первая строка доходит до пере∧
носа. После чего начинается вторая стро∧
ка.

Цитата:
Автоматически распознаются сноски внизу страницы и начинающиеся со *. При этом не проверяется правильная расстановка * внутри текста.

Значит, программа все сделала хорошо. Я просто надеялся, что ее можно как-нибудь заставить и сноски в правильные места вставлять.

Цитата:
Если Вы внимательно делали в ФР это -
- то абзацы будут правильные и их проверять нет смысла.
Вам останется только поправить отступы глав и др., если это не делали в ФР.

Супер! Это, собственно, самое важное.
Правда, в прошлый раз, когда пользовался программой, заметил, что иногда добавляется лишняя абзацная отбивка. Особенно когда есть отбивка после абзаца (одни знак "¶" между строками) то добавляется еще один (в итоге - две пустые строки вместо одной). Закономерность этого еще не понял.
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать