OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 
Послать Тему Печать
OCR Cleaner (Прочитано 22801 раз)
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #30 - 14.01.2006 :: 12:22:48
 
Программа обновилась.
Скачать можно по прежнему адресу:
http://www.the-ebook.org/e107/e107_files/downloads/bd/OcrPad.zip


"Ustas, думаю, что мне удалось немного облегчить твою войну с регэкспами. На предмет автоматической вставки символов в рэгэксповской hex-кодировке. Делается так.
1. Открываешь Find/Replace и отмечаешь RegExp.
2. В основном окне ставишь курсор перед символом.
3. В Find/Replace - правый клик на поле "find", затем "paste as RegExp hex". В результате в поле "find" появится код символа в регэкспном представлении (\x## или \u####).
Также можешь выделить несколько символов в оcновном окне. В этом случае после нажатия "paste as RegExp hex" в поле "find" появятся коды всех выделенных символов (до 10 штук).

Также добавил показ конца "книжной" стороки. В виде стрелки. А заодно - сохранение позиции при показе/убирании скрытых символов.

Качай еще раз, надеюсь, что теперь тебе будет проще разбираться с RegExp.

P.S. А чтобы еще облегчить тебе жизнь - сделал скрипт AfterFR.bcf. Это простой пример склейки и очистки текста после ФР (для случая, когда он выдает и концы "книжных" строк, и концы параграфов. В комментариях подробно описано, что, для чего и как делается."

Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #31 - 24.01.2006 :: 10:57:11
 
Новая версия доступна по прежнему адресу.

Цитата:
Ustas писал(а):
Почему-то в тестовом файле не все переносы убились.

vvv писал
Было немного свободного времени - повозился с твоим файлом. И нашел небольшой баг в массовых заменах по RegExp  . Устранил. А заодно эти массовые замены и немного ускорил. Раз этак в 5 . Вообщем, герена метла и "replace all" теперь летают. А правильно ли летают - это тебе проверять.

Также сделал пару полезных прибамбасок.

1. В Find/Replace добавил чекбокс "mark replaced". Теперь, если делаешь какие-нибудь замены с неоднозначным результатом (например, вычистку переносов) - отмечай этот бокс, и все сделанные замены будут помечены. А также будет выведен их список: кликаешь на слово в списке - и программа покажет замену.

2. Сделал однокликовое автоформатирование элементов (заголовков, параграфов, эпиграфов и т.д.). Как в BD. Доступно через меню "Make" или меню правого клика. Но, в отличии от BD, выбирать элементы двойным кликом не обязательно. Для выбора однострочных элементов достаточно поставить курсор внутрь элемента. А для многострочных - выбрать их обычным обводом мышки (или тройной клик на первый элемент, затем Shift+клик на последний).
Также, в отличии от BD, для каждого элемента задается не только свой цвет, но также и свой шрифт.
Пока все шрифты и стили для элементов только дефолтные. Но когда будет время - сделаю пользовательскую назначалку.
Для того, чтобы автоформатирование работало однозначно для всех элементов, после загрузки книги надо нажать "Make" -> "default book style".

Вообщем, качай еще раз и проверяй, все ли работает.
Наверх
 
WWW 67730822  
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR Cleaner
Ответ #32 - 03.02.2006 :: 14:06:53
 
прямо пьеса одного актера, неужто никто не пользуется и замечаний нет?

ЗЫ Вышла новая версия, доступна для скачивания.
пофиксены баги перекоса после переключения раскладки и зависания на больших файлах в при массовых заменах.
Наверх
 
WWW 67730822  
IP записан
 
Estarriol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: OCR Cleaner
Ответ #33 - 27.03.2006 :: 11:54:44
 
Лично я вот совершенно случайно набрёл на этот сайт... на котором так же неожиданно оказался зарегистрированным.

Ну а теперь по делу. Мой основной инструмент -- это регулярные выражения  (PowerGREP3). Позволяет создать неограниченный список поисков\замен, который потом можно применить... Плюс вычитка глазками и правка лапками...

Ключевой момент, который на последней книге (И.Вороницын, "История атеизма", 1930г., 895стр.) стал актуален -- это статистический анализ текста, причём, желательно, с учётом морфологии русского языка. Поясню: видимо молодая советская республика корректуры в должном объеме не обеспечила, в результате в книге встречаются самые разные варианты, как то -- "мало-по-малу" и "мало по малу", "то-есть" и "то есть", "т.-е." и "т. е.", не говоря уже о "эксплоатация", "итти", "вростать" и т.д. и т.п. Необходим статистический анализ массива текста, когда на выходе мы бы получали группы схожих слов и сразу было бы понятно, что чаще всего писалось "мало-по-малу", а без дефисов это сочетание набрано три раза из-за лености наборщика. Соотв., унифицируем... понятно к чему веду? Тут вордовский, да и любой другой спелчекер рехнулся бы давно.

Далее, актуальна проблема конветирования. Я на выходе сделал UTF8 HTML, поскольку парсить его регулярными выражениями и корректировать одно удовольствие (напр., при использовании BabelPad). Сноски -- в {...}. А потом хотелось бы превратить всё это дело в RTF или WORD, чтобы получить нормальные, человеческие сноски. Можно, конечно конвертнуть HTML в XML, где вместо {} -- <footnote></footnote>, но толку с этого никакого. Один хрен.

Так вот -- ни одного такого конвертера НЕТ. Одни грешат ПОЛНЫМ уничтожением диакритических знаков в этом самом Unicode (которые я бережно сохранял при сканировании), другие, как тот же Ворд, тупо конвертят HTML в RTF. Как мне там получить сноски не переделывая их ручками -- непонятно.

Вот вам и две основных проблемы.

Программку пока не тестил, может посмотрю вечером. Хотя б lookahead\lookbehind реализован?
Наверх
 
 
IP записан
 
Motorocker
Новичок
*
Вне Форума


Всем привет!

Сообщений: 5
Re: OCR Cleaner
Ответ #34 - 06.05.2006 :: 10:58:54
 
С ходу не разобрался в программе, но заметил, что в альдебарановских RTF файлах не показывает неразрывный дефис - получается одно слово.
Наверх
 
 
IP записан
 
AbsurdMan
Гуру
****
Вне Форума


Всем привет!

Сообщений: 685
Москва
Пол: male
Re: OCR Cleaner
Ответ #35 - 24.02.2016 :: 11:58:58
 
Выгорело ли что-то с этой прогой? Использует её кто-нибудь?
Наверх
 
446581004  
IP записан
 
Страниц: 1 2 
Послать Тему Печать