OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 
Послать Тему Печать
OCR Cleaner (Прочитано 34946 раз)
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
OCR Cleaner
11.11.2005 :: 10:16:34
 
Добрый человек любезно согласился написать программу, по мере сил исправляющую огрехи OCR.

Основные функции, которые я смог вспомнить и пожелать:
Цитата:
- возможность отлавливания (подсветки фона?) заданных пользователем "неправильных" слов.
- коррекция оставшихся после скана переносов/разрывов строк.
- корректная обработка абзацев (ФР частенько склеивает короткие абзацы - заметно на диалогах).
- коррекция заглавных букв (если строки загибаются на сгибе листа - в середине предложения могут появится ненужные заглавные буквы)

Вот свести бы эти пункты к подсветке фона проблемных мест....
Входной/выходной формат: doc/rtf


Список "неправильных слов" (от Змия) планируется сделать user defined
Предлагаю высказывать свои соображения.

Предметно обсуждается здесь:
http://www.the-ebook.org/forum/viewtopic.php?t=4591&start=0
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #1 - 11.11.2005 :: 13:01:40
 
Ustas писал(а) 11.11.2005 :: 10:16:34:
Добрый человек любезно согласился написать программу, по мере сил исправляющую огрехи OCR.

Замечу только, что "добрый человек" - автор Бук Дизайнера и других полезных библиотекарю программ.
Наверх
 
 
IP записан
 
Roland
Новичок
*
Вне Форума


Хайл, Стрелки!

Сообщений: 20
Пол: male
Re: OCR Cleaner
Ответ #2 - 11.11.2005 :: 18:22:39
 
Ustas писал(а) 11.11.2005 :: 10:16:34:
Добрый человек
Предлагаю высказывать свои соображения.

А чего высказываться? Нужно.
Наверх
 

Роланд Дискейн, Стрелок.
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1078
Россия
Пол: male
Re: OCR Cleaner
Ответ #3 - 11.11.2005 :: 22:59:58
 
Нужна сама программа, чтобы ее можно было протестировать. А уж потом можно ее будет обсудить...

А тема интересная! Этого человека сюда бы...
Наверх
« Последняя редакция: 11.11.2005 :: 23:09:59 от Вадим »  
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #4 - 12.11.2005 :: 16:10:40
 
http://www.the-ebook.org/e107/e107_files/downloads/bd/OcrCleaner.msi

Насколько понял, пока реализована проверка "плохих" слов.

Цитата:
Сама программка небольшая (~100кб). Но я на вский случай сделал полный установочный пакет, включив туда все библиотеки. Поэтому пакет получился 2.1 мб 

Иконку изобретать поленился. Если захочешь - рисуй и присылай, включу. Или я сам со временем придумаю (когда будет рисовальное настроение).

Работать с программкой просто. Она при открытии сразу же лоадит файл со Змиевыми словами. А тебе надо только загрузить книгу и нажать "check". С остальными опциями, думаю, сам разберешься: они вроде бы очевидные. Но если что-то будет непонятно - спрашивай.

Если захочешь делать свои файлы с плохими словами, надо соблюдать два правила.
1. Каждое слово должно быть на своей строке.
2. Кодировка - windows-1251.
Новые файлы с плохими словами рекомендуется помещать в поддиректорию SpellCheckFiles: если пользователь нажал "load" (это загрузка своих файлов с плохими словами), то программа показывает эту поддиректорию.
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #5 - 13.11.2005 :: 15:48:17
 
Ничего себе оперативность!
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: OCR Cleaner
Ответ #6 - 15.11.2005 :: 18:23:13
 
Наверное, полезна как вспомогательная вдобавок к считыванию. И более - никаких, ибо считывание, все-таки, это основное.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #7 - 15.11.2005 :: 19:04:50
 
Слишком уж большой там список слов. Перебором черезчур долго ищется. А реализция, как я понял, только поиск "слова целиком" - т.е. никаких сочетаний со знаками препинания не предусмотрено.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1078
Россия
Пол: male
Re: OCR Cleaner
Ответ #8 - 15.11.2005 :: 23:12:35
 
Уж очень простенькая. Работала очень быстро. Остановилась на нескольких словах, но это были не ошибки. Нужно немножко подработать - я не сразу понял, что нужно жать на одну и ту же кнопку, чтобы она искала дальше. Мне кажется, нужно повнимательнее прочитать руководство Готье, там описано много всяких ошибок, которые можно найти поиском...
Наверх
 
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #9 - 16.11.2005 :: 09:50:22
 
amyatishkin писал(а) 15.11.2005 :: 19:04:50:
Слишком уж большой там список слов. Перебором черезчур долго ищется. А реализция, как я понял, только поиск "слова целиком" - т.е. никаких сочетаний со знаками препинания не предусмотрено.


забил в поиск ", но" , ", а"  - все ищется.

ЗЫ Исправления листа плохих слов требуют повторного запуска программы.
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #10 - 16.11.2005 :: 10:08:35
 
Вадим писал(а) 15.11.2005 :: 23:12:35:
Уж очень простенькая. Работала очень быстро. Остановилась на нескольких словах, но это были не ошибки. Нужно немножко подработать - я не сразу понял, что нужно жать на одну и ту же кнопку, чтобы она искала дальше. Мне кажется, нужно повнимательнее прочитать руководство Готье, там описано много всяких ошибок, которые можно найти поиском...


Потому и быстрая, что простенькая Улыбка
Файл "плохих слов" вполне можно редактировать/подгружать свой.
Или скажем, обрабатывать текст разными файлами.

Надо помозговать, собрать все варианты в единый файл и запихнуть его в дистрибутив,
либо сделать набор файлов.
Наверх
 
WWW 67730822  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #11 - 16.11.2005 :: 11:10:15
 
Обсуждение на форуме th-ebook переехало: http://www.the-ebook.org/forum/viewtopic.php?t=4833

PS. Советую туда сходить и высказать свои замечания/пожелания непосредственно автору программы, так как, если судить по обсуждению на его форуме, то интересует эта программа только Ustas'a и меня. К тому же дополнитеные идеи никогда не помешают.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #12 - 16.11.2005 :: 11:13:06
 
Вадим писал(а) 15.11.2005 :: 23:12:35:
Остановилась на нескольких словах, но это были не ошибки.

В книге на 500 страниц (невычитанной) отловил с ее помощью 18 "неправильных" слов, типа "оп" вместо "он", "она" вместо "сна", "ее" вместо "вв." и т.д.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #13 - 16.11.2005 :: 11:14:48
 
Gautier писал(а) 15.11.2005 :: 18:23:13:
Наверное, полезна как вспомогательная вдобавок к считыванию. И более - никаких, ибо считывание, все-таки, это основное.

Само собой. Она, вроде как, для этого и задумывалась. Но, в любом случае, программа полезна, т.к. при считывании тоже можно что-то прозевать.
Наверх
 
 
IP записан
 
Gautier
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 154
Re: OCR Cleaner
Ответ #14 - 16.11.2005 :: 17:08:54
 
Antikwar писал(а) 16.11.2005 :: 11:14:48:
Само собой. Она, вроде как, для этого и задумывалась. Но, в любом случае, программа полезна, т.к. при считывании тоже можно что-то прозевать.

Конечно, нужно авто/полуавто пытаться выловить все, что можно, перед считыванием (у меня - перед вторым считыванием). Однако, наверное, нужно учитывать какой-то балланс: насколько та программа полезна (т.е., что за ошибки вылавливает) по отношению к тому времени, которое затрачивается на ее использование с последующим исправлением. Ведь все равно считывать. По идее, у меня действ. составлен список наиболее систем. ошибок, а у Zmiy имеется в десятки раз больший, но не только системат., а всех, которые ему встретились когда-либо (так я понял). Хорошо, конечно, быстро "прогнать" текст на поиск "по Zmiy", но, повторюсь, сколько времени это займет и будет ли оправдан такой масштаб, поскольку считывать все равно. Вот если быстро (скажем, за час-два с исправлениями), то очень полезно.
Наверх
 
 
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #15 - 16.11.2005 :: 17:54:03
 
Gautier писал(а) 16.11.2005 :: 17:08:54:
Хорошо, конечно, быстро "прогнать" текст на поиск "по Zmiy", но, повторюсь, сколько времени это займет и будет ли оправдан такой масштаб, поскольку считывать все равно. Вот если быстро (скажем, за час-два с исправлениями), то очень полезно.

На книге в 500 страниц отловлено 18 неправильных слов. Время, затраченное на проверку, назвать не могу - не засекал, но точно не час-два, гораздо быстрее. По ощущениям - 15 минут, но, может быть, несколько больше. Исправления делал по ходу проверки, так что много времени они не отняли.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #16 - 16.11.2005 :: 23:09:29
 
Прогнал 10 книжек вычитанных в Файнридере, объем примерно в 1600 стр.
Выловлено примерно 40 ошибок.
Примерно 10 шт. - случайно разорванные слова, еще 10 - пришлись на другой падеж забитых у меня в макросе плохих слов. А половина, можно считать, выловлена заново.

Но я предпочел выписывать попавшиеся слова с целью забить к себе в макрос для поиска.
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #17 - 16.11.2005 :: 23:53:03
 
amyatishkin писал(а) 16.11.2005 :: 23:09:29:
Но я предпочел выписывать попавшиеся слова с целью забить к себе в макрос для поиска.


А что за макрос, есть подробности?
Наверх
 
WWW 67730822  
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #18 - 17.11.2005 :: 04:57:30
 
Да просто поиск в Ворде часто встречающихся плохих слов/сочетаний. Они метятся розовым шрифтом и начинается поиск по нему. Могу, конечно, выложить.
Наверх
 
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #19 - 17.11.2005 :: 10:36:51
 
amyatishkin писал(а) 17.11.2005 :: 04:57:30:
Да просто поиск в Ворде часто встречающихся плохих слов/сочетаний. Они метятся розовым шрифтом и начинается поиск по нему. Могу, конечно, выложить.


Был бы признателен  Подмигивание
Наверх
 
WWW 67730822  
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #20 - 17.11.2005 :: 13:19:00
 
Вот тут он.
Bad words - старая версия
Bad words new - это добавления, по первому опыту змиевского списка и мои давно назревшие.

Это разные макросы, хотя можно их запустить последовательно и искать по цвету.
Наверх
 

NewMacros.zip (Вложенный файл удален)
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1078
Россия
Пол: male
Re: OCR Cleaner
Ответ #21 - 17.11.2005 :: 19:14:59
 
Что такое Чеккер? Это программа или пакет макрокоманд к редактору, в основе которого прежде всего положены операции поиска и замены. Я традиционно работаю с файлами TXT-DOS. В DOSе все операции над файлами очень быстро проходят. Первый такой пакет макрокоманд я делал к DOS Lexicon 1.3. И хотя функция поиска и замены там слабо реализована, удавалось много чего выудить в файле. Потом я пошел уже несколько иным путем... К чему я все это рассказываю. Ведь операция поиска и замены есть и в Ворде. Может есть смысл написать подобный макрос для него? Что такое рекомендации Готье. Это те же операции поиска и замены. Их надо только в общий пакет собрать, чтобы разом делать! Если к обсуждаемой программе прикрутить движок поиска и замены, то и для него можно написать пакет подобных операций...
Наверх
 
WWW  
IP записан
 
Antikwar
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 78
Москва
Пол: male
Re: OCR Cleaner
Ответ #22 - 17.11.2005 :: 19:59:30
 
Поиск и замена – хорошее дело, но "плохие слова" (замечательная формулировка) на автомате не отловить, т.к. очень сложно определить автоматически, является ли, например, слово "поп" ошибкой (он вытер поп) или нет (каков поп...). Данная программа позволяет шустренько пробежаться по "сомнительным случаям" и поправить если надо. А также, легко расширить список слов. ИМХО, стоит поразмышлять, как усовершенствовать/довести данную функцию программы и уже потом просить автора о добавлении функций.

PS. Мне бы хотелось иметь программу, позволяющую одним махом провести поиск/замену по "рекомендациям" (а там тоже некоторые вещи надо вручную проверять) и проверку "нехороших" слов.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #23 - 17.11.2005 :: 20:23:52
 
У программы в данном виде достоинство еще то, что она позволяет сократить проверяемые слова. Т.е. если вы сочтете что-то слишком часто встречающимся, жмете "Skip" и проверка идет с другим словом.
Наверх
 
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: OCR Cleaner
Ответ #24 - 17.11.2005 :: 20:27:42
 
Вадим писал(а) 17.11.2005 :: 19:14:59:
К чему я все это рассказываю. Ведь операция поиска и замены есть и в Ворде. Может есть смысл написать подобный макрос для него?


В списке 2100 слов. Ворд повешается на замене или хотя бы покраске их маркером.
Кстати, длина макроса ограничивается 64 кб.
Пока что я проверяю программкой и выписываю такие слова на будущее.
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 1078
Россия
Пол: male
Re: OCR Cleaner
Ответ #25 - 19.11.2005 :: 01:06:23
 
Antikwar писал(а) 17.11.2005 :: 19:59:30:
Поиск и замена – хорошее дело, но "плохие слова" (замечательная формулировка) на автомате не отловить, т.к. очень сложно определить автоматически, является ли, например, слово "поп" ошибкой (он вытер поп) или нет (каков поп...).

Все очень просто. Как это делается в TXT. Я задаю программе поиск/замена найти все слова "поп" и заменить их на "^поп". Так поступаю со всеми подозрительными словами. В конце процедуры возврат в начало текста и поиск символа "^". Программа поиска останавливается около каждого слова с символом "^". Я жму "Delete", удаляю символ "^" и оцениваю подозрительное слово. Вношу, если надо, исправления и жму кнопку продолжения поиска. И так до конца текста. Все это объединено в один пакетный файл.

Отличие для Ворда состоит в том, что нужно выделять подозрительные слова цветом и искать этот цвет.

Есть более сложные алгоритмы проверки текста, которые применяются в программах типа Ворд или Автоскан. Это когда идет сверка с эталонными словарями с последующей сортировкой подозрительных слов. Но такие программы долго обрабатывают текст и контролировать потом полученный результат - это каторга. А здесь, как я понимаю, идет речь о создании программы, которая быстро позволяла бы вылавливать львиную долю "мусора" и подозрительных слов...
Наверх
 
WWW  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #26 - 19.11.2005 :: 20:14:16
 
Спасибо за макросы!

А кто-нибудь значительно расширил змиевский список плохих слов?
Хотелось бы посмотреть/сравнить
Наверх
 
WWW 67730822  
IP записан
 
Lykas
Патриарх
*****
Вне Форума


Всем привет!

Сообщений: 1129
Re: OCR Cleaner
Ответ #27 - 19.11.2005 :: 22:03:30
 
Для вычитки использую Иероглиф. У него есть некоторые функции для вычитки текстов. Можете посмотреть справку.
Наверх
 

Hieroglyph.rar (Вложенный файл удален)
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #28 - 24.11.2005 :: 18:30:50
 
Новая версия!
Подробности:
http://www.the-ebook.org/forum/viewtopic.php?t=4833&start=30
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #29 - 07.01.2006 :: 02:32:10
 
Новая версия, новое название программы:

Основные фичи.

1. Полная поддержка юникодов. Плюс 5 виртуальных клавиатур: греческая, математическая, западно-европейская, восточно-европейская и разные экзотические символы.

2. Поиск плохих слов по списку пользователя. Двух типов: как рекурсивный (с показом каждого найденного слова), так и молчаливая отметка всех найденных слов.

3. Find/Replace c полной юникодной поддержкой и поиском по регулярным выражениям (RegExp). Поддерживается сохранение четырех отдельных историй поиска/замены (запоминает до 50-ти последних Find/Replace для каждой из четырех):
поиск: обычная история и история RegExp
замена: обычная история и история RegExp
Окна истории открываются нажатием на кнопки со стрелкой вниз. Когда открыто окно истории, правый клик внутри окна обеспечивает доступ к меню менеджера истории.

3. Массовые замены по списку пользователя: Edit -> Book Cleaner. Book Cleaner тоже полностью юникодный и с RegExp. Кроме того, в него вставлено окно комментария, куда можно записать "кто есть кто".

Большое число доп. опций Book Cleaner доступно через правый клик. Доступны два правокликовых меню, довольно обширных. Если кликнуть на окно таблицы замен, то появятся опции для мунипулирования с таблицей, если же кликнуть на окно комментария - появится меню для его редактирования.

Также я не поленился написать шесть жизненных примеров для работы с Book Cleaner: load -> 1.bcf, 2.bcf и т.д. Прежде, чем начать работу с Book Cleaner, рекомендую в них разобраться. Для того, чтобы было удобно читать текст комментария к загруженному примеру - правый клик -> show in window.

RegExp - это мощная игрушка, а те, кто в них разобрался - смогут делать ну очень много. Вообщем, настоятельно рекомендую, разберетесь - сразу почувствуете разницу. Тем более, что инструмент для экспериментирования теперь под рукой: открываете Find/Replace, отмечаете RegExp, вводите свое выражение, затем find - и сразу видно результат.
В принципе, в RegExp разобраться несложно, но разработка RegExp-скриптов требует внимательности и тчательной отладки. Поэтому при написании своих файлов для Book Cleaner рекомендуется их отлаживать по строкам. Для этого есть колонка use: применяться будут только те выражения, где use отмечено.

Ну а тем, кто хочет узнать побольше о RegExp - подробная справка по евойной теории и практике доступна через "help -> regular expressions". Там объденены две справки: русскоязычная - от Грибова и англоязычная - от Билла.

4. Ну и для кучи сделал вставку картинок: "Insert -> picture"

P.S. Еще в основном окне есть две кнопки, со стрелками вверх и вниз. Это для точного перелистывания страниц.

P.P.S. Да, забыл сказать. Не пользуйте Find/Replace и Book Cleaner в режиме показа невидимых символов (конца строки и nbsp): могут быть сбои.

Подробности:
http://www.the-ebook.org/forum/viewtopic.php?p=38459#38459
Наверх
 
WWW 67730822  
IP записан
 
Страниц: 1 2 
Послать Тему Печать