OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 
Послать Тему Печать
OCR Cleaner (Прочитано 22712 раз)
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
OCR Cleaner
11.11.2005 :: 10:16:12
 
Добрый человек любезно согласился написать программу, по мере сил исправляющую огрехи OCR.

Основные функции, которые я смог вспомнить и пожелать:
Цитата:
- возможность отлавливания (подсветки фона?) заданных пользователем "неправильных" слов.
- коррекция оставшихся после скана переносов/разрывов строк.
- корректная обработка абзацев (ФР частенько склеивает короткие абзацы - заметно на диалогах).
- коррекция заглавных букв (если строки загибаются на сгибе листа - в середине предложения могут появится ненужные заглавные буквы)

Вот свести бы эти пункты к подсветке фона проблемных мест....
Входной/выходной формат: doc/rtf


Список "неправильных слов" (от Змия) планируется сделать user defined
Предлагаю высказывать свои соображения.

Предметно обсуждается здесь:
http://www.the-ebook.org/forum/viewtopic.php?t=4591&start=0
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #1 - 11.11.2005 :: 13:01:18
 
Ustas писал(а) 11.11.2005 :: 10:16:12:
Добрый человек любезно согласился написать программу, по мере сил исправляющую огрехи OCR.

Замечу только, что "добрый человек" - автор Бук Дизайнера и других полезных библиотекарю программ.
Наверх
 
 
IP записан
 
Roland
Новичок
*
Вне Форума


Хайл, Стрелки!

Сообщений: 20
Пол: male
Re: OCR Cleaner
Ответ #2 - 11.11.2005 :: 18:22:17
 
Ustas писал(а) 11.11.2005 :: 10:16:12:
Добрый человек
Предлагаю высказывать свои соображения.

А чего высказываться? Нужно.
Наверх
 

Роланд Дискейн, Стрелок.
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: OCR Cleaner
Ответ #3 - 11.11.2005 :: 22:59:36
 
Нужна сама программа, чтобы ее можно было протестировать. А уж потом можно ее будет обсудить...

А тема интересная! Этого человека сюда бы...
Наверх
« Последняя редакция: 11.11.2005 :: 23:09:37 от Вадим »  
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #4 - 12.11.2005 :: 16:10:18
 
http://www.the-ebook.org/e107/e107_files/downloads/bd/OcrCleaner.msi

Насколько понял, пока реализована проверка "плохих" слов.

Цитата:
Сама программка небольшая (~100кб). Но я на вский случай сделал полный установочный пакет, включив туда все библиотеки. Поэтому пакет получился 2.1 мб 

Иконку изобретать поленился. Если захочешь - рисуй и присылай, включу. Или я сам со временем придумаю (когда будет рисовальное настроение).

Работать с программкой просто. Она при открытии сразу же лоадит файл со Змиевыми словами. А тебе надо только загрузить книгу и нажать "check". С остальными опциями, думаю, сам разберешься: они вроде бы очевидные. Но если что-то будет непонятно - спрашивай.

Если захочешь делать свои файлы с плохими словами, надо соблюдать два правила.
1. Каждое слово должно быть на своей строке.
2. Кодировка - windows-1251.
Новые файлы с плохими словами рекомендуется помещать в поддиректорию SpellCheckFiles: если пользователь нажал "load" (это загрузка своих файлов с плохими словами), то программа показывает эту поддиректорию.
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #5 - 13.11.2005 :: 15:47:55
 
Ничего себе оперативность!
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: OCR Cleaner
Ответ #6 - 15.11.2005 :: 18:22:51
 
Наверное, полезна как вспомогательная вдобавок к считыванию. И более - никаких, ибо считывание, все-таки, это основное.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #7 - 15.11.2005 :: 19:04:28
 
Слишком уж большой там список слов. Перебором черезчур долго ищется. А реализция, как я понял, только поиск "слова целиком" - т.е. никаких сочетаний со знаками препинания не предусмотрено.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: OCR Cleaner
Ответ #8 - 15.11.2005 :: 23:12:13
 
Уж очень простенькая. Работала очень быстро. Остановилась на нескольких словах, но это были не ошибки. Нужно немножко подработать - я не сразу понял, что нужно жать на одну и ту же кнопку, чтобы она искала дальше. Мне кажется, нужно повнимательнее прочитать руководство Готье, там описано много всяких ошибок, которые можно найти поиском...
Наверх
 
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #9 - 16.11.2005 :: 09:50:00
 
amyatishkin писал(а) 15.11.2005 :: 19:04:28:
Слишком уж большой там список слов. Перебором черезчур долго ищется. А реализция, как я понял, только поиск "слова целиком" - т.е. никаких сочетаний со знаками препинания не предусмотрено.


забил в поиск ", но" , ", а"  - все ищется.

ЗЫ Исправления листа плохих слов требуют повторного запуска программы.
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #10 - 16.11.2005 :: 10:08:13
 
Вадим писал(а) 15.11.2005 :: 23:12:13:
Уж очень простенькая. Работала очень быстро. Остановилась на нескольких словах, но это были не ошибки. Нужно немножко подработать - я не сразу понял, что нужно жать на одну и ту же кнопку, чтобы она искала дальше. Мне кажется, нужно повнимательнее прочитать руководство Готье, там описано много всяких ошибок, которые можно найти поиском...


Потому и быстрая, что простенькая Улыбка
Файл "плохих слов" вполне можно редактировать/подгружать свой.
Или скажем, обрабатывать текст разными файлами.

Надо помозговать, собрать все варианты в единый файл и запихнуть его в дистрибутив,
либо сделать набор файлов.
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #11 - 16.11.2005 :: 11:09:53
 
Обсуждение на форуме th-ebook переехало: http://www.the-ebook.org/forum/viewtopic.php?t=4833

PS. Советую туда сходить и высказать свои замечания/пожелания непосредственно автору программы, так как, если судить по обсуждению на его форуме, то интересует эта программа только Ustas'a и меня. К тому же дополнитеные идеи никогда не помешают.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #12 - 16.11.2005 :: 11:12:44
 
Вадим писал(а) 15.11.2005 :: 23:12:13:
Остановилась на нескольких словах, но это были не ошибки.

В книге на 500 страниц (невычитанной) отловил с ее помощью 18 "неправильных" слов, типа "оп" вместо "он", "она" вместо "сна", "ее" вместо "вв." и т.д.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #13 - 16.11.2005 :: 11:14:26
 
Gautier писал(а) 15.11.2005 :: 18:22:51:
Наверное, полезна как вспомогательная вдобавок к считыванию. И более - никаких, ибо считывание, все-таки, это основное.

Само собой. Она, вроде как, для этого и задумывалась. Но, в любом случае, программа полезна, т.к. при считывании тоже можно что-то прозевать.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: OCR Cleaner
Ответ #14 - 16.11.2005 :: 17:08:32
 
Antikwar писал(а) 16.11.2005 :: 11:14:26:
Само собой. Она, вроде как, для этого и задумывалась. Но, в любом случае, программа полезна, т.к. при считывании тоже можно что-то прозевать.

Конечно, нужно авто/полуавто пытаться выловить все, что можно, перед считыванием (у меня - перед вторым считыванием). Однако, наверное, нужно учитывать какой-то балланс: насколько та программа полезна (т.е., что за ошибки вылавливает) по отношению к тому времени, которое затрачивается на ее использование с последующим исправлением. Ведь все равно считывать. По идее, у меня действ. составлен список наиболее систем. ошибок, а у Zmiy имеется в десятки раз больший, но не только системат., а всех, которые ему встретились когда-либо (так я понял). Хорошо, конечно, быстро "прогнать" текст на поиск "по Zmiy", но, повторюсь, сколько времени это займет и будет ли оправдан такой масштаб, поскольку считывать все равно. Вот если быстро (скажем, за час-два с исправлениями), то очень полезно.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #15 - 16.11.2005 :: 17:53:41
 
Gautier писал(а) 16.11.2005 :: 17:08:32:
Хорошо, конечно, быстро "прогнать" текст на поиск "по Zmiy", но, повторюсь, сколько времени это займет и будет ли оправдан такой масштаб, поскольку считывать все равно. Вот если быстро (скажем, за час-два с исправлениями), то очень полезно.

На книге в 500 страниц отловлено 18 неправильных слов. Время, затраченное на проверку, назвать не могу - не засекал, но точно не час-два, гораздо быстрее. По ощущениям - 15 минут, но, может быть, несколько больше. Исправления делал по ходу проверки, так что много времени они не отняли.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #16 - 16.11.2005 :: 23:09:07
 
Прогнал 10 книжек вычитанных в Файнридере, объем примерно в 1600 стр.
Выловлено примерно 40 ошибок.
Примерно 10 шт. - случайно разорванные слова, еще 10 - пришлись на другой падеж забитых у меня в макросе плохих слов. А половина, можно считать, выловлена заново.

Но я предпочел выписывать попавшиеся слова с целью забить к себе в макрос для поиска.
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #17 - 16.11.2005 :: 23:52:41
 
amyatishkin писал(а) 16.11.2005 :: 23:09:07:
Но я предпочел выписывать попавшиеся слова с целью забить к себе в макрос для поиска.


А что за макрос, есть подробности?
Наверх
 
WWW 67730822  
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #18 - 17.11.2005 :: 04:57:08
 
Да просто поиск в Ворде часто встречающихся плохих слов/сочетаний. Они метятся розовым шрифтом и начинается поиск по нему. Могу, конечно, выложить.
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #19 - 17.11.2005 :: 10:36:29
 
amyatishkin писал(а) 17.11.2005 :: 04:57:08:
Да просто поиск в Ворде часто встречающихся плохих слов/сочетаний. Они метятся розовым шрифтом и начинается поиск по нему. Могу, конечно, выложить.


Был бы признателен  Подмигивание
Наверх
 
WWW 67730822  
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #20 - 17.11.2005 :: 13:18:38
 
Вот тут он.
Bad words - старая версия
Bad words new - это добавления, по первому опыту змиевского списка и мои давно назревшие.

Это разные макросы, хотя можно их запустить последовательно и искать по цвету.
Наверх
 

NewMacros.zip (Вложенный файл удален)
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: OCR Cleaner
Ответ #21 - 17.11.2005 :: 19:14:37
 
Что такое Чеккер? Это программа или пакет макрокоманд к редактору, в основе которого прежде всего положены операции поиска и замены. Я традиционно работаю с файлами TXT-DOS. В DOSе все операции над файлами очень быстро проходят. Первый такой пакет макрокоманд я делал к DOS Lexicon 1.3. И хотя функция поиска и замены там слабо реализована, удавалось много чего выудить в файле. Потом я пошел уже несколько иным путем... К чему я все это рассказываю. Ведь операция поиска и замены есть и в Ворде. Может есть смысл написать подобный макрос для него? Что такое рекомендации Готье. Это те же операции поиска и замены. Их надо только в общий пакет собрать, чтобы разом делать! Если к обсуждаемой программе прикрутить движок поиска и замены, то и для него можно написать пакет подобных операций...
Наверх
 
WWW  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #22 - 17.11.2005 :: 19:59:08
 
Поиск и замена – хорошее дело, но "плохие слова" (замечательная формулировка) на автомате не отловить, т.к. очень сложно определить автоматически, является ли, например, слово "поп" ошибкой (он вытер поп) или нет (каков поп...). Данная программа позволяет шустренько пробежаться по "сомнительным случаям" и поправить если надо. А также, легко расширить список слов. ИМХО, стоит поразмышлять, как усовершенствовать/довести данную функцию программы и уже потом просить автора о добавлении функций.

PS. Мне бы хотелось иметь программу, позволяющую одним махом провести поиск/замену по "рекомендациям" (а там тоже некоторые вещи надо вручную проверять) и проверку "нехороших" слов.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #23 - 17.11.2005 :: 20:23:30
 
У программы в данном виде достоинство еще то, что она позволяет сократить проверяемые слова. Т.е. если вы сочтете что-то слишком часто встречающимся, жмете "Skip" и проверка идет с другим словом.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #24 - 17.11.2005 :: 20:27:20
 
Вадим писал(а) 17.11.2005 :: 19:14:37:
К чему я все это рассказываю. Ведь операция поиска и замены есть и в Ворде. Может есть смысл написать подобный макрос для него?


В списке 2100 слов. Ворд повешается на замене или хотя бы покраске их маркером.
Кстати, длина макроса ограничивается 64 кб.
Пока что я проверяю программкой и выписываю такие слова на будущее.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: OCR Cleaner
Ответ #25 - 19.11.2005 :: 01:06:01
 
Antikwar писал(а) 17.11.2005 :: 19:59:08:
Поиск и замена – хорошее дело, но "плохие слова" (замечательная формулировка) на автомате не отловить, т.к. очень сложно определить автоматически, является ли, например, слово "поп" ошибкой (он вытер поп) или нет (каков поп...).

Все очень просто. Как это делается в TXT. Я задаю программе поиск/замена найти все слова "поп" и заменить их на "^поп". Так поступаю со всеми подозрительными словами. В конце процедуры возврат в начало текста и поиск символа "^". Программа поиска останавливается около каждого слова с символом "^". Я жму "Delete", удаляю символ "^" и оцениваю подозрительное слово. Вношу, если надо, исправления и жму кнопку продолжения поиска. И так до конца текста. Все это объединено в один пакетный файл.

Отличие для Ворда состоит в том, что нужно выделять подозрительные слова цветом и искать этот цвет.

Есть более сложные алгоритмы проверки текста, которые применяются в программах типа Ворд или Автоскан. Это когда идет сверка с эталонными словарями с последующей сортировкой подозрительных слов. Но такие программы долго обрабатывают текст и контролировать потом полученный результат - это каторга. А здесь, как я понимаю, идет речь о создании программы, которая быстро позволяла бы вылавливать львиную долю "мусора" и подозрительных слов...
Наверх
 
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #26 - 19.11.2005 :: 20:13:54
 
Спасибо за макросы!

А кто-нибудь значительно расширил змиевский список плохих слов?
Хотелось бы посмотреть/сравнить
Наверх
 
WWW 67730822  
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 696
Re: OCR Cleaner
Ответ #27 - 19.11.2005 :: 22:03:08
 
Для вычитки использую Иероглиф. У него есть некоторые функции для вычитки текстов. Можете посмотреть справку.
Наверх
 

Hieroglyph.rar (Вложенный файл удален)
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #28 - 24.11.2005 :: 18:30:28
 
Новая версия!
Подробности:
http://www.the-ebook.org/forum/viewtopic.php?t=4833&start=30
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #29 - 07.01.2006 :: 02:31:47
 
Новая версия, новое название программы:

Основные фичи.

1. Полная поддержка юникодов. Плюс 5 виртуальных клавиатур: греческая, математическая, западно-европейская, восточно-европейская и разные экзотические символы.

2. Поиск плохих слов по списку пользователя. Двух типов: как рекурсивный (с показом каждого найденного слова), так и молчаливая отметка всех найденных слов.

3. Find/Replace c полной юникодной поддержкой и поиском по регулярным выражениям (RegExp). Поддерживается сохранение четырех отдельных историй поиска/замены (запоминает до 50-ти последних Find/Replace для каждой из четырех):
поиск: обычная история и история RegExp
замена: обычная история и история RegExp
Окна истории открываются нажатием на кнопки со стрелкой вниз. Когда открыто окно истории, правый клик внутри окна обеспечивает доступ к меню менеджера истории.

3. Массовые замены по списку пользователя: Edit -> Book Cleaner. Book Cleaner тоже полностью юникодный и с RegExp. Кроме того, в него вставлено окно комментария, куда можно записать "кто есть кто".

Большое число доп. опций Book Cleaner доступно через правый клик. Доступны два правокликовых меню, довольно обширных. Если кликнуть на окно таблицы замен, то появятся опции для мунипулирования с таблицей, если же кликнуть на окно комментария - появится меню для его редактирования.

Также я не поленился написать шесть жизненных примеров для работы с Book Cleaner: load -> 1.bcf, 2.bcf и т.д. Прежде, чем начать работу с Book Cleaner, рекомендую в них разобраться. Для того, чтобы было удобно читать текст комментария к загруженному примеру - правый клик -> show in window.

RegExp - это мощная игрушка, а те, кто в них разобрался - смогут делать ну очень много. Вообщем, настоятельно рекомендую, разберетесь - сразу почувствуете разницу. Тем более, что инструмент для экспериментирования теперь под рукой: открываете Find/Replace, отмечаете RegExp, вводите свое выражение, затем find - и сразу видно результат.
В принципе, в RegExp разобраться несложно, но разработка RegExp-скриптов требует внимательности и тчательной отладки. Поэтому при написании своих файлов для Book Cleaner рекомендуется их отлаживать по строкам. Для этого есть колонка use: применяться будут только те выражения, где use отмечено.

Ну а тем, кто хочет узнать побольше о RegExp - подробная справка по евойной теории и практике доступна через "help -> regular expressions". Там объденены две справки: русскоязычная - от Грибова и англоязычная - от Билла.

4. Ну и для кучи сделал вставку картинок: "Insert -> picture"

P.S. Еще в основном окне есть две кнопки, со стрелками вверх и вниз. Это для точного перелистывания страниц.

P.P.S. Да, забыл сказать. Не пользуйте Find/Replace и Book Cleaner в режиме показа невидимых символов (конца строки и nbsp): могут быть сбои.

Подробности:
http://www.the-ebook.org/forum/viewtopic.php?p=38459#38459
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #30 - 14.01.2006 :: 12:22:48
 
Программа обновилась.
Скачать можно по прежнему адресу:
http://www.the-ebook.org/e107/e107_files/downloads/bd/OcrPad.zip


"Ustas, думаю, что мне удалось немного облегчить твою войну с регэкспами. На предмет автоматической вставки символов в рэгэксповской hex-кодировке. Делается так.
1. Открываешь Find/Replace и отмечаешь RegExp.
2. В основном окне ставишь курсор перед символом.
3. В Find/Replace - правый клик на поле "find", затем "paste as RegExp hex". В результате в поле "find" появится код символа в регэкспном представлении (\x## или \u####).
Также можешь выделить несколько символов в оcновном окне. В этом случае после нажатия "paste as RegExp hex" в поле "find" появятся коды всех выделенных символов (до 10 штук).

Также добавил показ конца "книжной" стороки. В виде стрелки. А заодно - сохранение позиции при показе/убирании скрытых символов.

Качай еще раз, надеюсь, что теперь тебе будет проще разбираться с RegExp.

P.S. А чтобы еще облегчить тебе жизнь - сделал скрипт AfterFR.bcf. Это простой пример склейки и очистки текста после ФР (для случая, когда он выдает и концы "книжных" строк, и концы параграфов. В комментариях подробно описано, что, для чего и как делается."

Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #31 - 24.01.2006 :: 10:57:11
 
Новая версия доступна по прежнему адресу.

Цитата:
Ustas писал(а):
Почему-то в тестовом файле не все переносы убились.

vvv писал
Было немного свободного времени - повозился с твоим файлом. И нашел небольшой баг в массовых заменах по RegExp  . Устранил. А заодно эти массовые замены и немного ускорил. Раз этак в 5 . Вообщем, герена метла и "replace all" теперь летают. А правильно ли летают - это тебе проверять.

Также сделал пару полезных прибамбасок.

1. В Find/Replace добавил чекбокс "mark replaced". Теперь, если делаешь какие-нибудь замены с неоднозначным результатом (например, вычистку переносов) - отмечай этот бокс, и все сделанные замены будут помечены. А также будет выведен их список: кликаешь на слово в списке - и программа покажет замену.

2. Сделал однокликовое автоформатирование элементов (заголовков, параграфов, эпиграфов и т.д.). Как в BD. Доступно через меню "Make" или меню правого клика. Но, в отличии от BD, выбирать элементы двойным кликом не обязательно. Для выбора однострочных элементов достаточно поставить курсор внутрь элемента. А для многострочных - выбрать их обычным обводом мышки (или тройной клик на первый элемент, затем Shift+клик на последний).
Также, в отличии от BD, для каждого элемента задается не только свой цвет, но также и свой шрифт.
Пока все шрифты и стили для элементов только дефолтные. Но когда будет время - сделаю пользовательскую назначалку.
Для того, чтобы автоформатирование работало однозначно для всех элементов, после загрузки книги надо нажать "Make" -> "default book style".

Вообщем, качай еще раз и проверяй, все ли работает.
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #32 - 03.02.2006 :: 14:06:53
 
прямо пьеса одного актера, неужто никто не пользуется и замечаний нет?

ЗЫ Вышла новая версия, доступна для скачивания.
пофиксены баги перекоса после переключения раскладки и зависания на больших файлах в при массовых заменах.
Наверх
 
WWW 67730822  
IP записан
 
Estarriol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: OCR Cleaner
Ответ #33 - 27.03.2006 :: 11:54:44
 
Лично я вот совершенно случайно набрёл на этот сайт... на котором так же неожиданно оказался зарегистрированным.

Ну а теперь по делу. Мой основной инструмент -- это регулярные выражения  (PowerGREP3). Позволяет создать неограниченный список поисков\замен, который потом можно применить... Плюс вычитка глазками и правка лапками...

Ключевой момент, который на последней книге (И.Вороницын, "История атеизма", 1930г., 895стр.) стал актуален -- это статистический анализ текста, причём, желательно, с учётом морфологии русского языка. Поясню: видимо молодая советская республика корректуры в должном объеме не обеспечила, в результате в книге встречаются самые разные варианты, как то -- "мало-по-малу" и "мало по малу", "то-есть" и "то есть", "т.-е." и "т. е.", не говоря уже о "эксплоатация", "итти", "вростать" и т.д. и т.п. Необходим статистический анализ массива текста, когда на выходе мы бы получали группы схожих слов и сразу было бы понятно, что чаще всего писалось "мало-по-малу", а без дефисов это сочетание набрано три раза из-за лености наборщика. Соотв., унифицируем... понятно к чему веду? Тут вордовский, да и любой другой спелчекер рехнулся бы давно.

Далее, актуальна проблема конветирования. Я на выходе сделал UTF8 HTML, поскольку парсить его регулярными выражениями и корректировать одно удовольствие (напр., при использовании BabelPad). Сноски -- в {...}. А потом хотелось бы превратить всё это дело в RTF или WORD, чтобы получить нормальные, человеческие сноски. Можно, конечно конвертнуть HTML в XML, где вместо {} -- <footnote></footnote>, но толку с этого никакого. Один хрен.

Так вот -- ни одного такого конвертера НЕТ. Одни грешат ПОЛНЫМ уничтожением диакритических знаков в этом самом Unicode (которые я бережно сохранял при сканировании), другие, как тот же Ворд, тупо конвертят HTML в RTF. Как мне там получить сноски не переделывая их ручками -- непонятно.

Вот вам и две основных проблемы.

Программку пока не тестил, может посмотрю вечером. Хотя б lookahead\lookbehind реализован?
Наверх
 
 
IP записан
 
Motorocker
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: OCR Cleaner
Ответ #34 - 06.05.2006 :: 10:58:54
 
С ходу не разобрался в программе, но заметил, что в альдебарановских RTF файлах не показывает неразрывный дефис - получается одно слово.
Наверх
 
 
IP записан
 
AbsurdMan
Гуру
****
Вне Форума


Всем привет!

Сообщений: 684
Москва
Пол: male
Re: OCR Cleaner
Ответ #35 - 24.02.2016 :: 11:58:58
 
Выгорело ли что-то с этой прогой? Использует её кто-нибудь?
Наверх
 
446581004  
IP записан
 
Страниц: 1 
Послать Тему Печать