OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
FineReader ???? .txt (Прочитано 9860 раз)
Ретро РЗиА
Новичок
*
Вне Форума



Сообщений: 19
Санкт-Петербург
Пол: male
FineReader ???? .txt
12.05.2008 :: 11:35:07
 

Здравствуйте!

Забыл свой пароль, а новый присылать не хотят, зарегистрировался заново, прошу, удалит участника Никита с адресом nlyubimov@mail.ru
Ну,  вопрос собственно не в этом.
А вот в чем.
Распознанные в FineReader 8,  страницы пытаюсь сохранить в формат .txt, но, за место нормального текста там сохраняются квадратики или вопросики, так вот у меня вопрос как это исправить? Установил патч который скачал в интернете обещали, что эта проблема исправиться, да патч помог, но только для передачи страниц в word или pdf, а с .txt осталось все также. Видимо по этой причине в программе  DjvuOCR - 2.3 у меня этот .txt файл не хочет прилепляться к DjVu?
Помогите,  пожалуйста,  советом. Печаль

С уважением, Никита
Наверх
 

Ретро РЗиА – в помощь коллегам, все для технического обслуживания УРЗА
WWW 366627471  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: FineReader ???? .txt
Ответ #1 - 13.05.2008 :: 09:19:13
 
Черт его знает, может это из-за того, что кряк кривой, а патч не все его огрехи исправляет. Но большой проблемы в этом случае я не вижу. Можно ведь сохранить в DOC, а из него уже в TXT.
По поводу DjvuOCR 2.3. Насколько я помню,
он сам делает правильно форматированную заготовку с OCR из всего пакета Файн Ридера и вставляет ее в DJVU. Там ведь не голый текст нужен, но еще и координаты слов или строчек. Поэтому пытаться приклеить Файн-ридерский TXT к DJVU - это совершенно бессмысленное занятие. Надо в DjvuOCR указать пакет(папку) FR и DJVU-файл (со включенной галочкой Burn), а больше ничего не требуется.  Ну и еще, кажется, надо придумать название для временного TXT, который на самом деле не TXT, а совсем другой формат.
Наверх
 
 
IP записан
 
Ретро РЗиА
Новичок
*
Вне Форума



Сообщений: 19
Санкт-Петербург
Пол: male
Re: FineReader ???? .txt
Ответ #2 - 13.05.2008 :: 09:26:13
 
Спасибо за ответ, вот я как раз вчера попробовал передать все в .pdf, а оттуда сохранить все как текст, то есть в  .txt, но к моему огорчению все опять в квадратиках стало. DjvuOCR - 2.3 эти квадратики не прилепит видь? В прочим буду экспериментировать, надеюсь, кто еще поможет советом.
Наверх
 

Ретро РЗиА – в помощь коллегам, все для технического обслуживания УРЗА
WWW 366627471  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: FineReader ???? .txt
Ответ #3 - 13.05.2008 :: 09:46:06
 
Если Вам OCR нужен только для встройки в DJVU, то НЕ НАДО сохранять результат распознавания в TXT напрямую или с промежуточным DOC или PDF!
Просто распознайте и все. Потом запустите DjvuOCR, он САМ извлечет текстовую информацию с координатами из пакета FR и прилепит ее к DJVU. Только следите, чтобы порядок страниц в пакете и в DJVU был одинаковым.

Насчет того "будут ли квадратики" я не уверен - у Вас явно неудачно сломанный ФР. Лучше бы заменить его, чтобы не возникало проблем.
Наверх
 
 
IP записан
 
Ретро РЗиА
Новичок
*
Вне Форума



Сообщений: 19
Санкт-Петербург
Пол: male
Re: FineReader ???? .txt
Ответ #4 - 16.05.2008 :: 07:57:57
 
To Balabol

Спасибо за советы у меня все получилось, квадратики на своем месте, но как вы и написали .txt файл от FineReader и даром не нужен, я поэкспериментировал с программой DjvuOCR - 2.3 и все прекрасно вышло, автору программы очередное спасибо!

У меня теперь другой вопрос, как я понимаю DjVu файл уже является сжатым и нет смысла его архивировать, но всеже может как- то можно еще уменьшить размер файла, у меня получилась книга,  которая на 300 кб. Не пролезает на «народ» что делать? Разбивать на два файла не приемлемо.

Наверх
 

Ретро РЗиА – в помощь коллегам, все для технического обслуживания УРЗА
WWW 366627471  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: FineReader ???? .txt
Ответ #5 - 17.05.2008 :: 09:59:54
 
Не может быть такого, чтобы 300 кб не пролезало. Таких ограничений давно уже нигде нет. Возможно, просто сервер глючит или доступное место кончилось. Вроде бы на Народе объем сайта можно увеличить где-то в настройках.
О сжатии RAR-ом. DJVU обычно только чуть-чуть сжимается. Хотя в теме http://publ.lib.ru/cgi/forum/YaBB.pl?num=1110891069/30#30 (сообщ. 51-52) был пример довольно сильного сжатия.
А уменьшить djvu можно путем правильной обработки сканов и выбором параметров кодирования:
1) очистка от пятен грязи (мелкие - деспеклом, крупные - вручную)
2) постраничная разрезка разворотов и выравнивание страниц
3) сглаживание букв и line-art
4) выбор агрессивного сжатия
5) задание большого размера словаря (для многостраничных файлов)
6) можно еще дополнительно обработать сканы с помощью CPC Tool
Т.е., вкратце, надо убрать ненужную инфу (грязь) и сделать как можно больше сходных букв перед кодированием.

Сейчас многие делают хорошие сканы по методике Scan&Share. Может и Вам попробовать?
Наверх
 
 
IP записан
 
Ретро РЗиА
Новичок
*
Вне Форума



Сообщений: 19
Санкт-Петербург
Пол: male
Re: FineReader ???? .txt
Ответ #6 - 19.05.2008 :: 11:26:39
 
Спасибо буду думать, и все- таки не могу понять, вот читаю я всякие советы чайникам и ни в одном совете нет подробностей, например, таких как размер одной странички книги, который считается оптимальным. Я вот вчера взял одну DjVu книгу и решил ее привести в порядок, то есть разрезать страницы, убрать мусор, добавить OCR и автооглавление, в итоге размер книги стал в два раза больше, это даже без обложки, все делал, как предлагает monday2000 в своей работе Scan and Share v1.061 только я при помощи кромсатора выделил TIFF файлы, а работал дальше по методике, но пока результат меня не удовлетворяет, просто мало времени разбираться и экспериментировать, а вообще хотел бы создать  на своем сайте качественную подборку книг по релейной защите, потому как в интернете в большинстве своем либо нет того, что надо, либо качество меня не удовлетворяет,  а по поводу «Народа.ru» так у меня, почему- то туда и 4,8 мБ. Не лезет, ума не приложу почему.
Наверх
 

Ретро РЗиА – в помощь коллегам, все для технического обслуживания УРЗА
WWW 366627471  
IP записан
 
Balabol
Новичок
*
Вне Форума


Всем привет!

Сообщений: 40
Re: FineReader ???? .txt
Ответ #7 - 20.05.2008 :: 06:10:18
 
Ретро РЗиА писал(а) 19.05.2008 :: 11:26:39:
ни в одном совете нет подробностей, например, таких как размер одной странички книги, который считается оптимальным.

Это обсуждалось на форумах еще на заре "дежавюизации всей страны". Насколько помню, пришли к соглашению, что нормально, когда страничка в djvu весит 7-15 кб (300 dpi, ч-б, ~A5 формата, полностью заполненная текстом, без картинок). Для 600 dpi нормально, наверное, 10-20 кб.

Ретро РЗиА писал(а) 19.05.2008 :: 11:26:39:
Я вот вчера взял одну DjVu книгу и решил ее привести в порядок, то есть разрезать страницы, убрать мусор, добавить OCR и автооглавление, в итоге размер книги стал в два раза больше, это даже без обложки, все делал, как предлагает monday2000 в своей работе Scan and Share v1.061 только я при помощи кромсатора выделил TIFF файлы, а работал дальше по методике, но пока результат меня не удовлетворяет, просто мало времени разбираться и экспериментировать.

Методика не Мандея, а by 4u4undr/VladimirTT. Она только для необработанных серых сканов предназначалась (с переводом в 600 dpi ч-б сканы).  А если Вы взяли ч-б сканы и увеличили по методике до 600 dpi Кромсатором, то размер и должен сильно вырасти. Информации (пикселов) стало ведь в 4 раза больше (но наличие сходных букв уменьшило размер).
Если Вы дополнительно не улучшаете исходный скан сглаживанием букв, то никакого смысла увеличивать dpi в Вашем случае нет. Получится то же самое, что и в случае 300 dpi, только размер файла увеличится.
А вообще, размер сейчас уходит на второй план (у многих анлим или дешевый трафик), поэтому лучше заботиться прежде всего о качестве. 

Ретро РЗиА писал(а) 19.05.2008 :: 11:26:39:
а вообще хотел бы создать  на своем сайте качественную подборку книг по релейной защите, потому как в интернете в большинстве своем либо нет того, что надо, либо качество меня не удовлетворяет,  а по поводу «Народа.ru» так у меня, почему- то туда и 4,8 мБ. Не лезет, ума не приложу почему.

Попробуйте обратиться в техподдержку Народа.
Спасибо за сайт. Очень полезное и нужное дело делаете.
Наверх
 
 
IP записан
 
Ретро РЗиА
Новичок
*
Вне Форума



Сообщений: 19
Санкт-Петербург
Пол: male
Re: FineReader ???? .txt
Ответ #8 - 20.05.2008 :: 09:33:49
 
Balabol писал(а) 20.05.2008 :: 06:10:18:
......что нормально, когда страничка в djvu весит 7-15 кб (300 dpi, ч-б, ~A5 формата, полностью заполненная текстом, без картинок). Для 600 dpi нормально, наверное, 10-20 кб.


Спасибо я понял

Balabol писал(а) 20.05.2008 :: 06:10:18:
Методика не Мандея, а by 4u4undr/VladimirTT. Она только для необработанных серых сканов предназначалась (с переводом в 600 dpi ч-б сканы).

С этим тоже понятно просто monday2000 на мой взгляд более других продвигает в сети учебный материал для «чайников» за что ему очередное спасибо

Balabol писал(а) 20.05.2008 :: 06:10:18:
А вообще, размер сейчас уходит на второй план (у многих анлим или дешевый трафик), поэтому лучше заботиться прежде всего о качестве.  

Я тоже так думаю.......

Balabol писал(а) 20.05.2008 :: 06:10:18:
Спасибо за сайт. Очень полезное и нужное дело делаете.


Оно, дело, еще и мое любимое, я имею ввиду РЗиА, а сайт это то чем я могу помочь продвижению своей профессии, релейщики та вымирают. А информационный голод у релейщиков особенно молодых  до сих пор ощущается.
Но как всегда у людей, не хватает времени и денег, поэтому не могу никак доделать свой сайт, в плане дизайна, но главное не фантик, а начинка.

С уважением, Никита
Наверх
 

Ретро РЗиА – в помощь коллегам, все для технического обслуживания УРЗА
WWW 366627471  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать