OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Общие проблемы распознавания (Прочитано 3839 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Общие проблемы распознавания
18.03.2012 :: 11:18:45
 

вот столкнулся с такой проблемой:

а) переносы FR8 распознает как тире, и потом при поиске в готовой djvu-книге слова, разбитые переносом, не ищутся полностью

б) FR11 помечает переносы знаком мягкого переноса, что, по идее, при переносе текстового слоя в Word, не должно бы мешать поиску слова, разбитого таким переносом, но: FR11 добавляет после знака мягкого переноса некий невидимый символ (которые не видим в Ворде), из-за чего и в djvu нельзя найти поиском разбитое слово, и в Ворде оно тоже не ищется из-за этого символа.

Что это может быть, и как с этим бороться?

Наверх
« Последняя редакция: 20.03.2012 :: 22:45:58 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: Общие проблемы распознавания
Ответ #1 - 16.10.2016 :: 15:11:12
 
Статья
Зачем и как распознавать книги?
Автор: Рома Болгарчук

Цитата:
Многие до сих пор еще не знают, зачем книги распознавать (оцифровывать). Хотя, надеюсь, вопросов, зачем их сканировать, уже нет. Так как преимущество электронных книг над бумажными очевидно по многим показателям. Остановлюсь именно на разнице распознанного и нераспознанного текста, лишь упомянув программы для такого «метаморфоза». Традиционно считается лучшим способ распознавания текста с помощью программы ABBYY FineReader. Хотя такая возможность имеется и в Acrobat Pro. Увы, обе программы платные, а бесплатные аналоги типа CuneiForm, Scan kromsator и других пока оставляют желать лучшего. Но хотелось бы верить, что уже есть или скоро появится достойный бесплатный аналог FineReader. Чем же все-таки является распознанный и нераспознанный текст? Мне часто приходилось сталкиваться с людьми, которые далеки от понимания разницы. То ли в компьютере они используют только кнопку «ВКЛВЫКЛ», то ли книги читают исключительно глазами, ничего с ними больше не делая. А что с ними еще можно делать — возникнет резонный вопрос. Вот его и разберу ниже. Одна из загвоздок в том, что распознанный и нераспознанный текст при взгляде на экран внешне практически ничем не отличается. И в том, и в том видны буквы, и тот, и другой иногда даже можно разными способами скопировать. Да и некоторые форматы (файлы) могут содержать одновременно как текст, так и картинку текста. Но все же разница между ними существенна. Нераспознанный текст — это просто картинка. Буквы в которой зафиксированы, как на обычной фотографии. Что-либо дописать, а тем более, изменить, в таком тексте (без дополнительной обработки) крайне сложно. Единственным его преимуществом является то, что он безошибочно отражает все, что было сфотографировано или сканировано. Если это хорошее качество, то видны все галочки, точечки, отступы, рисунки, формулы и многое другое. Поэтому сканированный текст так важен, если в сканированной книге много разных сложных элементов. В принципе, на этом преимущества сканированных картинок перед тем же, но распознанным текстом, заканчиваются. Дальше идут одни недостатки. Это и больший размер документа (чем распознанный), и неудобство работы с ним, и многое другое. Но опишу те же недостатки в виде преимуществ распознанного текста перед нераспознанным. Итак, основные преимущества распознанного (так называемого OCR) текста: 1) малый размер; 2) более простая возможность редактирования; 3) удобное иногда автоматическое добавления закладок; 4) поиск по тексту (который не возможен, если текст является картинкой); 5) одно из самых главных преимуществ, которым многие пока не пользуются, возможность прослушать текст с помощью синтезаторов речи, я так переслушал массу книг. Конечно, на этом преимущества распознанных текстов не кончаются, но это для меня 5 основных. Таким образом, чтобы проработать книгу, мне не раз приходилось ее либо сканировать или фотографировать, либо уже сканированные скачанные из Интернета книги переводить в понятные компьютеру буквы, а не фотографии букв, которые лишь видны на экране. Хотя в Интернете все больше появляется хорошо проработанных книг, в которых есть сам текст, а не только его фотография, или изначально цифровых. Тем не менее достаточно много людей не умеют или не хотят пользоваться данными возможностями, несмотря на все их преимущества. Но это уже другая социальная проблема…

Автор: Рома Болгарчук
Источник: http://shkolazhizni.ru/world/articles/64860/
© Shkolazhizni.ru
Наверх
« Последняя редакция: 16.10.2016 :: 20:30:02 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 114
Re: Общие проблемы распознавания
Ответ #2 - 16.10.2016 :: 19:28:19
 
И?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4356
Екатеринбург
Пол: male
Re: Общие проблемы распознавания
Ответ #3 - 16.10.2016 :: 20:16:52
 
Dmitry7 писал(а) 16.10.2016 :: 15:11:12:
Зачем и как распознавать книги?

@ zorro04
Нда. Уровень статьи "зашкаливает" Улыбка Что тут вообще можно сказать.

Кстати. Сейчас слушаю Кургиняна, СИ-110. С 01ч30м (чуть раньше вводная) любопытный текст от академика В.Арнольда. Про образование.
Как всё-таки тесен мир. То журнал "Квант" с его библиотечкой, то политолог Сергей Ервандович, и связывает это один академик.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5086
Санкт-Петербург
Пол: male
Re: Общие проблемы распознавания
Ответ #4 - 16.10.2016 :: 20:29:22
 
zorro04 писал(а) 16.10.2016 :: 19:28:19:
И?

Просто для того, чтобы показать, что вообще пишут по теме, даже и такое.
Честно говоря, содержание статейки не убедительно, хотя понятно, что автор хотел "как лучше".

p.s. Это из "познавательного журнала"  "Школа жизни.Ру"
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать