OCR форум - OCR Cleaner

Выбор языка:

Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация

Всем привет!
Hi all!

OCR форум › Создание и чтение электронных книг › Распознавание (OCR) графических текстов › OCR Cleaner

(Модератор: Dmitry7)

‹ Предыдущая тема | Следующая тема ›

Страниц: 1 2

OCR Cleaner (Прочитано 33798 раз)

Ustas

Постоялец

Вне Форума

даешь качественный OCR!

Сообщений: 176
Пол: male

Re: OCR Cleaner
Ответ #30 - 14.01.2006 :: 12:22:48

Программа обновилась.
Скачать можно по прежнему адресу:
http://www.the-ebook.org/e107/e107_files/downloads/bd/OcrPad.zip

"Ustas, думаю, что мне удалось немного облегчить твою войну с регэкспами. На предмет автоматической вставки символов в рэгэксповской hex-кодировке. Делается так.
1. Открываешь Find/Replace и отмечаешь RegExp.
2. В основном окне ставишь курсор перед символом.
3. В Find/Replace - правый клик на поле "find", затем "paste as RegExp hex". В результате в поле "find" появится код символа в регэкспном представлении (\x## или \u####).
Также можешь выделить несколько символов в оcновном окне. В этом случае после нажатия "paste as RegExp hex" в поле "find" появятся коды всех выделенных символов (до 10 штук).

Также добавил показ конца "книжной" стороки. В виде стрелки. А заодно - сохранение позиции при показе/убирании скрытых символов.

Качай еще раз, надеюсь, что теперь тебе будет проще разбираться с RegExp.

P.S. А чтобы еще облегчить тебе жизнь - сделал скрипт AfterFR.bcf. Это простой пример склейки и очистки текста после ФР (для случая, когда он выдает и концы "книжных" строк, и концы параграфов. В комментариях подробно описано, что, для чего и как делается."

Наверх

IP записан

Ustas

Постоялец

Вне Форума

даешь качественный OCR!

Сообщений: 176
Пол: male

Re: OCR Cleaner
Ответ #31 - 24.01.2006 :: 10:57:11

Новая версия доступна по прежнему адресу.

Цитата:

Ustas писал(а):
Почему-то в тестовом файле не все переносы убились.

vvv писал
Было немного свободного времени - повозился с твоим файлом. И нашел небольшой баг в массовых заменах по RegExp . Устранил. А заодно эти массовые замены и немного ускорил. Раз этак в 5 . Вообщем, герена метла и "replace all" теперь летают. А правильно ли летают - это тебе проверять.

Также сделал пару полезных прибамбасок.

1. В Find/Replace добавил чекбокс "mark replaced". Теперь, если делаешь какие-нибудь замены с неоднозначным результатом (например, вычистку переносов) - отмечай этот бокс, и все сделанные замены будут помечены. А также будет выведен их список: кликаешь на слово в списке - и программа покажет замену.

2. Сделал однокликовое автоформатирование элементов (заголовков, параграфов, эпиграфов и т.д.). Как в BD. Доступно через меню "Make" или меню правого клика. Но, в отличии от BD, выбирать элементы двойным кликом не обязательно. Для выбора однострочных элементов достаточно поставить курсор внутрь элемента. А для многострочных - выбрать их обычным обводом мышки (или тройной клик на первый элемент, затем Shift+клик на последний).
Также, в отличии от BD, для каждого элемента задается не только свой цвет, но также и свой шрифт.
Пока все шрифты и стили для элементов только дефолтные. Но когда будет время - сделаю пользовательскую назначалку.
Для того, чтобы автоформатирование работало однозначно для всех элементов, после загрузки книги надо нажать "Make" -> "default book style".

Вообщем, качай еще раз и проверяй, все ли работает.

Наверх

IP записан

Ustas

Постоялец

Вне Форума

даешь качественный OCR!

Сообщений: 176
Пол: male

Re: OCR Cleaner
Ответ #32 - 03.02.2006 :: 14:06:53

прямо пьеса одного актера, неужто никто не пользуется и замечаний нет?

ЗЫ Вышла новая версия, доступна для скачивания.
пофиксены баги перекоса после переключения раскладки и зависания на больших файлах в при массовых заменах.

Наверх

IP записан

Estarriol

Новичок

Вне Форума

Всем привет!

Сообщений: 5

Re: OCR Cleaner
Ответ #33 - 27.03.2006 :: 11:54:44

Лично я вот совершенно случайно набрёл на этот сайт... на котором так же неожиданно оказался зарегистрированным.

Ну а теперь по делу. Мой основной инструмент -- это регулярные выражения (PowerGREP3). Позволяет создать неограниченный список поисков\замен, который потом можно применить... Плюс вычитка глазками и правка лапками...

Ключевой момент, который на последней книге (И.Вороницын, "История атеизма", 1930г., 895стр.) стал актуален -- это статистический анализ текста, причём, желательно, с учётом морфологии русского языка. Поясню: видимо молодая советская республика корректуры в должном объеме не обеспечила, в результате в книге встречаются самые разные варианты, как то -- "мало-по-малу" и "мало по малу", "то-есть" и "то есть", "т.-е." и "т. е.", не говоря уже о "эксплоатация", "итти", "вростать" и т.д. и т.п. Необходим статистический анализ массива текста, когда на выходе мы бы получали группы схожих слов и сразу было бы понятно, что чаще всего писалось "мало-по-малу", а без дефисов это сочетание набрано три раза из-за лености наборщика. Соотв., унифицируем... понятно к чему веду? Тут вордовский, да и любой другой спелчекер рехнулся бы давно.

Далее, актуальна проблема конветирования. Я на выходе сделал UTF8 HTML, поскольку парсить его регулярными выражениями и корректировать одно удовольствие (напр., при использовании BabelPad). Сноски -- в {...}. А потом хотелось бы превратить всё это дело в RTF или WORD, чтобы получить нормальные, человеческие сноски. Можно, конечно конвертнуть HTML в XML, где вместо {} -- <footnote></footnote>, но толку с этого никакого. Один хрен.

Так вот -- ни одного такого конвертера НЕТ. Одни грешат ПОЛНЫМ уничтожением диакритических знаков в этом самом Unicode (которые я бережно сохранял при сканировании), другие, как тот же Ворд, тупо конвертят HTML в RTF. Как мне там получить сноски не переделывая их ручками -- непонятно.

Вот вам и две основных проблемы.

Программку пока не тестил, может посмотрю вечером. Хотя б lookahead\lookbehind реализован?

Наверх

IP записан

Motorocker Новичок Вне Форума Всем привет! Сообщений: 5	Re: OCR Cleaner Ответ #34 - 06.05.2006 :: 10:58:54 С ходу не разобрался в программе, но заметил, что в альдебарановских RTF файлах не показывает неразрывный дефис - получается одно слово.
Наверх	IP записан

AbsurdMan Патриарх Вне Форума Всем привет! Сообщений: 1181 Москва Пол:	Re: OCR Cleaner Ответ #35 - 24.02.2016 :: 11:58:58 Выгорело ли что-то с этой прогой? Использует её кто-нибудь?
Наверх	IP записан

Страниц: 1 2

‹ Предыдущая тема | Следующая тема ›

« Главная

‹ Раздел

Наверх этой страницы