OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
OCR текстов в "дореволюционной орфографии" (Прочитано 33509 раз)
Peresmeshnik
Новичок
*
Вне Форума


Всем привет!

Сообщений: 1
OCR текстов в "дореволюционной орфографии"
06.07.2005 :: 18:17:35
 
Как отцифровать книги издания до 1918 г.?

Хочется получить несколько имеющихся у меня книг 1860 - 1916 годов в формате doc или pdf...

Мешают "ять", "фита" и "и с точкой и двумя точками".

Кто знает, как решить проблему?
Наверх
« Последняя редакция: 15.01.2012 :: 23:15:09 от Dmitry7 »  
 
IP записан
 
Slawa-614
Активист
***
Вне Форума


Всем привет!

Сообщений: 380
Пол: male
Re: OCR текстов в "дореволюционной орфографии"
Ответ #1 - 07.07.2005 :: 00:17:14
 
Peresmeshnik писал(а) 06.07.2005 :: 18:17:35:
Как отцифровать книги издания до 1918 г.?

Хочется получить несколько имеющихся у меня книг 1860 - 1916 годов в формате doc или pdf...

Мешают "ять", "фита" и "и с точкой и двумя точками".

Кто знает, как решить проблему?


Включить в FR режим обучения и показать эти буквы распознавалке (пусть временно заменяет их каким-нибудь спецсимволом), а потом в ворде глобально заменить эти спецсимволы - на нужные буквы (если найдешь их в раскладках шрифтов).
Но вообще дело слишком хлопотное, я предпочитаю такую лит-ру сканить в DJVU.

Наверх
 

Slawa-614
 
IP записан
 
Ustas
Постоялец
**
Вне Форума


даешь качественный OCR!

Сообщений: 176
Пол: male
Re: OCR текстов в "дореволюционной орфографии"
Ответ #2 - 07.07.2005 :: 09:16:16
 
Шрифт - Palatino Lynotype
Наверх
 
WWW 67730822  
IP записан
 
Vyacheslav_Sachkov
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 129
Методика обработки файнридером текстов с дореволюц
Ответ #3 - 17.09.2007 :: 07:02:34
 
Есть ли у кого-нибудь опыт работы в файнридере с текстами в старой орфографии? В частности, существует ли словарь распознования и, если есть, то где его можно подобрать? Аналогичный вопрос со словарем проверки орфографии.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: Методика обработки файнридером текстов с дореволюц
Ответ #4 - 28.06.2011 :: 21:58:27
 
Vyacheslav_Sachkov писал(а) 17.09.2007 :: 07:02:34:
Есть ли у кого-нибудь опыт работы в файнридере с текстами в старой орфографии? В частности, существует ли словарь распознования и, если есть, то где его можно подобрать? Аналогичный вопрос со словарем проверки орфографии.

присоединяюсь к вопросу
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 4358
Екатеринбург
Пол: male
Re: Методика обработки файнридером текстов с дореволюц
Ответ #5 - 06.07.2011 :: 12:47:28
 
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
ramirez
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 71
Пол: male
Старорусский словарь для FineReader
Ответ #6 - 15.03.2011 :: 10:41:59
 
Нет ли у кого старорусского словаря для подключения в FineReader, чтобы он все эти яти корректно распозновал и переводил в современные буквы?
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1722
Пол: male
Re: Старорусский словарь для FineReader
Ответ #7 - 15.03.2011 :: 19:49:25
 
Честно говоря не совсем понятно, что вы хотите получить. В ждете, что FineReader правильно распознает дореформенные буквы, учтет правила перевода и выдаст текст в современной грамматике? Этого точно ждать не стоит.
А вот нормальную поддержку распознавания Ѣ , Ѳ, І  добавить бы не мешало. Чтоб он хотя бы старый текст корректно распознавал.
Хотя может новые версии это делают нормально (я на 8-й сижу).
Наверх
 
 
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Старорусский словарь для FineReader
Ответ #8 - 16.03.2011 :: 08:09:53
 
В десятой версии FineReader'а есть в дополнительных языках "Русский (старая орфография)". Как распознает я не пробовал.
Наверх
 
 
IP записан
 
ramirez
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 71
Пол: male
Re: Старорусский словарь для FineReader
Ответ #9 - 16.03.2011 :: 13:41:23
 
mor писал(а) 15.03.2011 :: 19:49:25:
Честно говоря не совсем понятно, что вы хотите получить. В ждете, что FineReader правильно распознает дореформенные буквы, учтет правила перевода и выдаст текст в современной грамматике?

Хотелось бы, чтобы он тупо переводил старые буквы в новые, без всякой грамматики (Ѣ в е, i в и и т.д.).

 
mor писал(а) 15.03.2011 :: 19:49:25:
А вот нормальную поддержку распознавания Ѣ , Ѳ, І  добавить бы не мешало. Чтоб он хотя бы старый текст корректно распознавал.
Хотя может новые версии это делают нормально (я на 8-й сижу).

К сожалению, не нормально. Десятая версия старые символы не распознает. Вот я и подумал, может есть словарь, который бы знакомил фаинридер со старыми символами и он не выдавал бы такую кашу как сейчас.


nbl писал(а) 16.03.2011 :: 08:09:53:
В десятой версии FineReader'а есть в дополнительных языках "Русский (старая орфография)". Как распознает я не пробовал.

У меня такого словаря в десятке нет, версия 10.0.102.105. Может вы его отдельно ставили?
...
Наверх
« Последняя редакция: 16.03.2011 :: 13:50:23 от ramirez »  
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: Старорусский словарь для FineReader
Ответ #10 - 16.03.2011 :: 20:03:09
 
Конечно, эти я зыки ставятся отдельно. У меня в ФР 7.0 тоже есть. Нужно скачать с сайта ABBYY нужные языки и поставить.
Наверх
 
WWW  
IP записан
 
ramirez
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 71
Пол: male
Re: Старорусский словарь для FineReader
Ответ #11 - 17.03.2011 :: 12:34:07
 
А где там? Что-то я на abbyy.ru не нашел...
Наверх
 
 
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: Старорусский словарь для FineReader
Ответ #12 - 17.03.2011 :: 19:58:52
 
Нет, в десятой версии они, по всей видимости, уже входят в состав пакета. Заявлено 186 языков распознавания. Если у вас лецинзионная версия, то все должно быть. Ищите.
Наверх
 
WWW  
IP записан
 
Вадим
Администратор
*****
Вне Форума


Всем привет!

Сообщений: 937
Россия
Пол: male
Re: Старорусский словарь для FineReader
Ответ #13 - 17.03.2011 :: 23:01:49
 
Установил ФР 10. Все дополнительные языки распознавания установились сразу. У вас, по всей видимости, этого не произошло. Нужно было, при инсталляции ФР, выбрать не типовую, а выборочную установку и задать, какие языки распознавания установить. Советую переустановить ФР 10.
Наверх
 
WWW  
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1722
Пол: male
Re: Старорусский словарь для FineReader
Ответ #14 - 18.03.2011 :: 13:03:28
 
А я нашел их в 8-й  версии Улыбка)
После установки  появилась ссылка на дополнительные языки - http://www.abbyy.com/addlang/build8001126/?lang=ru
Скачал и установил по ней - "Остальные языки распознавания"
Далее меню выбора языков - Выбор нескольких языков -Поставить галку "Показать все языки" - Появляется пункт Русский (старая орфография).
Проверил - распознает нормально.

Глянул еще раз книгу в старой орфографии - честно говоря  простая замена букв кажется бессмысленной - воспринимать текст будет сложней.  Когда видишь эти буквы сразу понимаешь, что язык старый и воспринимаешь соответственно.
Наверх
 
 
IP записан
 
ramirez
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 71
Пол: male
Re: Старорусский словарь для FineReader
Ответ #15 - 21.03.2011 :: 09:47:34
 
Вадимmor, спасибо, попробую.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: Старорусский словарь для FineReader
Ответ #16 - 06.07.2011 :: 18:51:33
 
mor писал(а) 18.03.2011 :: 13:03:28:
А я нашел их в 8-й  версии Улыбка)
После установки  появилась ссылка на дополнительные языки - http://www.abbyy.com/addlang/build8001126/?lang=ru
Скачал и установил по ней - "Остальные языки распознавания"
Далее меню выбора языков - Выбор нескольких языков -Поставить галку "Показать все языки" - Появляется пункт Русский (старая орфография).
Проверил - распознает нормально.

Глянул еще раз книгу в старой орфографии - честно говоря  простая замена букв кажется бессмысленной - воспринимать текст будет сложней.  Когда видишь эти буквы сразу понимаешь, что язык старый и воспринимаешь соответственно.

а у меня FR8  Portable, Установить не удалось - пишет "FR не найден на компе"
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: Старорусский словарь для FineReader
Ответ #17 - 11.08.2011 :: 19:26:45
 
Старая русская орфография не распознает "ять", добавляется лишь распознавание "i".
Возможно, фита с ижицей тоже не будут распознаны.
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1722
Пол: male
Re: Старорусский словарь для FineReader
Ответ #18 - 15.08.2011 :: 12:24:52
 
Dmitry7 писал(а) 06.07.2011 :: 18:51:33:
а у меня FR8  Portable, Установить не удалось - пишет "FR не найден на компе"

могу только посоветовать поставить обычную версию с установщиком


Jeffry писал(а) 11.08.2011 :: 19:26:45:
Старая русская орфография не распознает "ять", добавляется лишь распознавание "i".
Возможно, фита с ижицей тоже не будут распознаны.

фита, ять и ижица в FR8 распознаются правильно
Наверх
 
 
IP записан
 
Jeffry
Постоялец
**
Вне Форума


Привет всем!

Сообщений: 75
Re: Старорусский словарь для FineReader
Ответ #19 - 15.08.2011 :: 17:00:26
 
Цитата:
фита, ять и ижица в FR8 распознаются правильно

У меня FR8, но "ять" не распознается - выводятся квадратики вместо буквы.   Старорусская орфография - из набора дополнительных шрифтов.   Может быть у Вас другой вариант?
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1722
Пол: male
Re: Старорусский словарь для FineReader
Ответ #20 - 15.08.2011 :: 19:37:39
 
Jeffry писал(а) 15.08.2011 :: 17:00:26:
У меня FR8, но "ять" не распознается - выводятся квадратики вместо буквы.   Старорусская орфография - из набора дополнительных шрифтов.   Может быть у Вас другой вариант?

Квадратики,  обычно, верный признак распознавания. Если бы он распознавал неправильно - подставлял бы другие (неправильные) символы.

Вот пример работы FR8 в моем случае:
на вход подавал следующую картинку - http://www.onlinedisk.ru/view/714061/test.png
Результат такой:
http://www.onlinedisk.ru/view/714062/result.png
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: OCR текстов в "дореволюционной орфографии"
Ответ #21 - 22.02.2012 :: 20:01:00
 

а не существует ли программы автоматического перевода из старой орфографии в новую?
возможно, кому-то это понадобится
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: OCR текстов в "дореволюционной орфографии"
Ответ #22 - 22.02.2012 :: 20:06:38
 
Автоматического способа нет. Могу порекомендовать поинтересоваться редактором Иероглиф и почитать вот эту тему:
http://www.djvu-scan.ru/forum/index.php?topic=367.0
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5088
Санкт-Петербург
Пол: male
Re: OCR текстов в "дореволюционной орфографии"
Ответ #23 - 22.02.2012 :: 20:16:45
 
nbl писал(а) 22.02.2012 :: 20:06:38:
Автоматического способа нет. Могу порекомендовать поинтересоваться редактором Иероглиф и почитать вот эту тему:
http://www.djvu-scan.ru/forum/index.php?topic=367.0

спасибо!
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать