OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
О качестве OCR-слоя (важно!) (Прочитано 5179 раз)
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
О качестве OCR-слоя (важно!)
10.11.2012 :: 11:34:56
 
Dmitry7 писал(а) 09.11.2012 :: 17:41:24:
просто где-то подсознательно сидят времена малых дисков и медленных компов, когда приходилось урезать качество

Это точно! Это во многих еще сидит. Но сейчас главное качество и скана, и OCR слоя, а потом уже размер файла.

Пользуясь случаем хотел бы еще сказать об OCR слое в DJVU файлах. Некоторые оцифровщики относятся к нему принебрежительно и делают кое-как, лишь бы был. В результате часто появляются книги, в OCR слое которых, чуть ли не в каждом русском слове, присутствуют латинские символы, перемешаны строчные и прописные буквы, а часто и вообще содержится непонятная кракозябра. Зачем так делать? Ведь такой слой не нужен никому и ни для чего, а только ведет к увеличению размера файла и зачастую просто вредит пользователям! Лучше и полезнее вообще не делать OCR слоя, чем делать так! Я не призываю заниматься вычиткой текстового слоя, но использовать методики и приложения, дающие минимум ошибок при распознавании можно и нужно, тем более, что это совсем не сложно.
Наверх
« Последняя редакция: 10.11.2012 :: 14:40:03 от Dmitry7 »  
WWW  
IP записан
 
pohorsky
Патриарх
*****
Вне Форума


Подключайтесь к проекту
"Вся МРБ"!!!

Сообщений: 5323
Москва
Пол: male
Re: О качестве OCR-слоя (важно!)
Ответ #1 - 10.11.2012 :: 12:45:26
 
Вадим писал(а) 10.11.2012 :: 11:34:56:
Пользуясь случаем хотел бы еще сказать об OCR слое в DJVU файлах


Да, эта тема пока, кажется, не обсуждалась.
Я использую FR11 (раскошелился), делаю предварительный анализ зон распознавания, удаляю, лишние (формулы,  рисунки и т. д.), проверяю ориентацию текста в таблицах...
Процесс, конечно, нудный и пока делаю в книгах типа справочников, где OCR нужен.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: О качестве OCR-слоя (важно!)
Ответ #2 - 10.11.2012 :: 14:37:29
 
Вадим писал(а) 10.11.2012 :: 11:34:56:
часто появляются книги, в OCR слое которых, чуть ли не в каждом русском слове, присутствуют латинские символы, перемешаны строчные и прописные буквы, а часто и вообще содержится непонятная кракозябра.


это потому, что авторы таких OCR пользуются встроенным распознавателем DEE, а он как раз такую фигню и делает.

лучше пользоваться проверенными временем FR8 в комплекте с DjvuOCR от Gencho, или FR11 с последними исправлениями.
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: О качестве OCR-слоя (важно!)
Ответ #3 - 11.11.2012 :: 18:06:47
 
DEE распознает неплохо, ошибок не намного больше, чем с ФР8.0, разве что часто выдает латинскую букву r вместо русской г.   
Фигня начинается, когда не задают язык распознавания (напр., установлен английский, а распознается русский текст).   
Странно (даже страшно), что иногда пользователи DEE  даже не знают, что язык распознавания надо задать.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: О качестве OCR-слоя (важно!)
Ответ #4 - 11.11.2012 :: 19:02:09
 
Jeffry писал(а) 11.11.2012 :: 18:06:47:
Странно (даже страшно), что иногда пользователи DEE  даже не знают, что язык распознавания надо задать.

особенно заметно на книгах, где есть и русский, и английский язык.
в DEE 2 и более языка задать вроде нельзя?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: О качестве OCR-слоя (важно!)
Ответ #5 - 04.02.2013 :: 20:58:31
 
pohorsky писал(а) 10.11.2012 :: 12:45:26:
Да, эта тема пока, кажется, не обсуждалась.
Я использую FR11 (раскошелился), делаю предварительный анализ зон распознавания, удаляю, лишние (формулы,  рисунки и т. д.), проверяю ориентацию текста в таблицах...
Процесс, конечно, нудный и пока делаю в книгах типа справочников, где OCR нужен. 


Добрые люди (NME) на руборде сделали

FR11 DjVu Text Layer Crutch
Программа для исправления текстового слоя в файле DjVu, созданного посредством ABBYY FineReader билд 11.0.102.583 (м.б. и выше)..

Выполняет следующие действия:
- удаляет блоки Char;
- создает блоки Line;
- объединяет две половинки слова, разделенного знаком переноса ¬, в одно;
- позволяет переносить текстовый слой из одного файла в другой..
Для использования нужно запустить программу и выбрать нужный файл - текстовый слой в нем преобразуется и сохранится автоматически..

Скачать
http://rusfolder.com/34514539

Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать