OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Словари для Abbyy FineReader (Прочитано 16300 раз)
Sombra
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Киев, Украина
Пол: male
Словари для Abbyy FineReader
08.07.2009 :: 19:36:01
 
Коллеги, большинство из присутствующих занимается распознаванием DJVU-книг. Я лично при проверке распознанной версии FineReader-ом всегда добавляю новые слова в словарь, вместо того, чтобы просто нажать пропустить. В итоге в самом начале на проверку уходит больше времени, а в самом конце - намного меньше, так как в основном, если книга узкоспециализированная, термины в ней распределены более-менее равномерно.

Так вот в чем собственно вопрос. Я пытался в интернете найти узкоспециализированные тематические словари к FineReader-у, но не нашел. Почему бы нам самим, не обменяться собственными пользовательскими словарями. Глядишь работа по вычитке текста упростилась бы.
Наверх
« Последняя редакция: 15.01.2012 :: 23:12:37 от Dmitry7 »  
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Словари для Abbyy FineReader
Ответ #1 - 09.07.2009 :: 04:00:48
 
Тут несколько вариантов действий со словарем есть.
1) Если взять толстый роман, неторопливо распознавать по 10 страниц и править, добавляя незнакомое в словарь - то к середине можно выйти на безошибочное распознание.
2) если есть какой-то выделенный  перечень незнакомых слов в книге, то вначале распознать его и добавить. Это может быть словарь, расшифровка аббривиатур, иллюстрации на вкладках.
3) особо не париться, надеясь на ранее заполненный словарь, а при появлении устйчивых неправильно распознаваевых слов - добавлять в словарь и перераспознавать.

Вот здесь внизу страницы можно взять мой словарь, обученный по военной тематике: http://www.amyat.narod.ru/faq/faq.html
Наверх
 
 
IP записан
 
Sombra
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Киев, Украина
Пол: male
Re: Словари для Abbyy FineReader
Ответ #2 - 09.07.2009 :: 08:39:05
 
Спасибо за информацию, ссылку, словарь и макросы. Я совсем недавно занялся распознаванием, поэтому большого набитого словаря у меня нет, но через пару дней закончу распознавать книгу медицинской тематики и смогу выложить словарь, который получится после распознавания этой узкотематической книги. Может кому-то пригодится.

Есть ли смысл объединять много словарей или для распознавания книг конкретной тематики пользоваться только тематическим?

Так и не понял, чтобы задействовать слова уже добавленные в словарь FineReader-а в ходе проверки первой части книги, нужно ли перераспознавать оставшийся текст? Или добавленные слова тут же учавствуют в удалении всех последующих "сомнений" и ошибок в данных словах в дальнейшем?
Наверх
 
 
IP записан
 
Lykas
Гуру
****
Вне Форума


Всем привет!

Сообщений: 691
Re: Словари для Abbyy FineReader
Ответ #3 - 09.07.2009 :: 10:44:35
 
А если список для словаря брать из энциклопедий? Например из 5-ти томника химической или физической. Большая часть терминов и фамилий там будет из данной области. Или подключить словарь 30-ти томника.
Наверх
 
 
IP записан
 
Sombra
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Киев, Украина
Пол: male
Re: Словари для Abbyy FineReader
Ответ #4 - 09.07.2009 :: 11:39:35
 
Lykas, а как подключить этот словарь? Просто я открыл тот словарь, который экспортирован из FineReader, а там такое вот начало:

Цитата:
!!!DO NOT EDIT THIS FILE!!!
Portable Morphological Dictionary
Russian
30ХГСА[PTS=INV]
Абанин[PTS=NOU NMB=SG GDR=MSC CAS=NOM ANI=ANM]: Абанина[PTS=NOU NMB=SG GDR=MSC CAS=PTV ANI=ANM], Абанине[PTS=NOU NMB=SG GDR=MSC CAS=LOC ANI=ANM], Абанины[PTS=NOU NMB=PL GDR=MSC CAS=NOM ANI=ANM], Абаниных[PTS=NOU NMB=PL GDR=MSC CAS=GEN ANI=ANM]


И дальше идут строки со словоформами. Поискал в интернете, но видимо "Portable Morphological Dictionary" это какой-то внутренний формат для продуктов Abbyy.

А как Вы предлагаете добавить словарь 30-томника? Есть ли там словоформы? Как скормить его FineReader-у? Если есть опыт использования, буду признателен советам как импортировать.

P.S. Предлагаю всем, кто уже давно пользуется FineReader-ом и добавляет новые слова в словарь отписаться в этой теме и по вохможности выложить свои словари, независимо от тематики. Если кто не умеет заэкспортировать словарь, пишите, напишу или дам ссылку на детальную инструкцию.

P.P.S. Можно конечно разодрать готовую энциклопедию в электронном виде на уникальные слова и добавить их все в файл строками вида:

Цитата:
Areca[PTS=INV]
Arendt[PTS=INV]
Arennt[PTS=INV]
Arent[PTS=INV]
Arentsen[PTS=INV]
Arentz[PTS=INV]
Arentzen[PTS=INV]
ARENTZENS[PTS=INV]
Ares[PTS=INV]
aretinske[PTS=INV]


По сути как неизменяемые слова. Но не сделает ли это хуже? Ведь словоформ нет, а я не уверен, что FineReader при распознавании не учитывает морфологию. Да и ошибки в энциклопедиях тоже встречаются. А если FineReader будет знать слова с ошибками, то он скушает их как нормально распознанные и даже не покажет при проверке. Хотя это может быть даже плюсом. Ошибки остаются, но это ошибки наборщиков и редакторов книг, а не собственно распознавания.
Наверх
« Последняя редакция: 09.07.2009 :: 11:48:28 от Sombra »  
 
IP записан
 
amyatishkin
Активист
***
Вне Форума


Всем привет!

Сообщений: 426
Re: Словари для Abbyy FineReader
Ответ #5 - 09.07.2009 :: 16:21:14
 
Sombra писал(а) 09.07.2009 :: 08:39:05:
Есть ли смысл объединять много словарей или для распознавания книг конкретной тематики пользоваться только тематическим?

Так и не понял, чтобы задействовать слова уже добавленные в словарь FineReader-а в ходе проверки первой части книги, нужно ли перераспознавать оставшийся текст? Или добавленные слова тут же учавствуют в удалении всех последующих "сомнений" и ошибок в данных словах в дальнейшем?


Вообще я сейчас меньше пользуюсь словарями. В основном по 3-му варианту действую.
Для шибко специальных книг предпочитаю добавить слова, а потом вернуться к сохраненному словарю.
Текст надо перераспознавать, вообще проблема ведь не в отображении ошибок, а в неправильном распознании.

Что действительно нужно как-то сделать - это словарь английских фамилий-производных от имен.
Робертс-Роберт и т.д. они все неправильно распознаются.
Наверх
 
 
IP записан
 
Sombra
Новичок
*
Вне Форума


Всем привет!

Сообщений: 4
Киев, Украина
Пол: male
Re: Словари для Abbyy FineReader
Ответ #6 - 09.07.2009 :: 16:31:10
 
Ну так если обмениваться словарями, то постепенно все часто встречаемые фамилии там будут. И остальные часто встречаемые "редкие" слова тоже. Главное не лениться добавлять правильные словоформы для слов.

А кто в Abbyy эти словари набивает? Или они автоматически это делают забирая корпуса специально подобранных текстов, как например этот: http://www.ruscorpora.ru/?
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать