OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Форум переведен из кодировки UTF-8 в кодировку WINDOWS-1251. По всем вопросам, связанным с кодировкой текста (появлением «кракозябр»), обращайтесь к Администратору.
The forum is translated from the UTF-8 encoding to the WINDOWS-1251 encoding. For all questions related to the encoding of the text (the appearance of 'krakozyabr'), please contact the Administrator.
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
ClearScan (Прочитано 6891 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
ClearScan
08.02.2013 :: 22:48:14
 

как работать с ClearScan, если страница содержит и английский и русский текст?

там можно выбрать только 1 язык же?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
Re: ClearScan
Ответ #1 - 08.02.2013 :: 23:29:42
 
и еще вопрос:

как быть, если ClearScan разбивает явно слитное слово на 2-3 куска с пробелами? и поиском потом такое слово в целом уже не найти.
непонятно, почему он иногда считает межбуквенное расстояние междусловным.
можно ли с этим бороться и как регулировать чувствительность к пробелам?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 210
Москва
Пол: male
Re: ClearScan
Ответ #2 - 09.02.2013 :: 08:25:39
 
Цитата:
как работать с ClearScan, если страница содержит и английский и русский текст?

Выставлять язык распознавания русский, англ. зашит по умолчанию и неплохо в акробате распознается, а если наоборот, то русские буквы вообще распознаваться не будут.
Цитата:
как быть, если ClearScan разбивает явно слитное слово на 2-3 куска с пробелами? и поиском потом такое слово в целом уже не найти.
непонятно, почему он иногда считает межбуквенное расстояние междусловным.
можно ли с этим бороться и как регулировать чувствительность к пробелам?

Никак, я не нашел способов обойти это (ни в Клеарскане, ни в простом акробатовском OCR), ведь режим практически автоматический и без тонких настроек (по крайней мере для Акробатов 9/10, 11-ю версию я еще не пробовал).
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #3 - 09.02.2013 :: 08:50:40
 
тоже самое в 11-ом.
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 210
Москва
Пол: male
Re: ClearScan
Ответ #4 - 09.02.2013 :: 10:20:03
 
Цитата:
тоже самое в 11-ом.

Кстати, в 11-й появилась ли возможность распознавания больших листов в полноцвете, особенно некратных А4? Например 3хА4, 4хА4, А2 и т.д. (А3 в 10-й сделали распознавание, в 9-й даже А3 полноцветные не распознавались). В 10-й точно этого нет, OCR модуль ругается на неизвестную ошибку. Пример могу выложить (склееные в ФШ карты-развороты из глянцевых ВС большого размера, чуть ли не А2).
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
Re: ClearScan
Ответ #5 - 09.02.2013 :: 10:56:47
 
slava_kry писал(а) 09.02.2013 :: 08:50:40:
тоже самое в 11-ом.

в ФР11 (и ФР8) это иногда лечится переключением "АВТО"-"Пиш.МАШИНКА" - "МАТРИЧНЫЙ ПРИНТЕР"

а в Акробате 10 я пробовал не ClearScan, а обычное распознавание (но убрать поворот изображения), иногда пробелы пропадают...
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
Re: ClearScan
Ответ #6 - 09.02.2013 :: 10:58:50
 
slava_kry писал(а) 09.02.2013 :: 08:50:40:
тоже самое в 11-ом.

есть что у 11 акробата , ради чего стоит менять на него 10-й? или не принципиально?
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #7 - 09.02.2013 :: 11:39:53
 
Фактически не принципиально, но ИМХО CS стал работать несколько эффективнее (распознание и скорость), да и в целом работает быстрее.
Хотя возможно это эффект плацебо от нового компа.

Кстати, по поводу статьи по переводу с помощью CS, всё там прекрасно, НО есть нюансы подготовки, которые позволяют сократить конечный объём. Улыбка
1. Очень желательно фон листа сделать белым, вообще белым в "ноль" - это позволит правильно распознать границы изображений и отделить их от фона.
2. Текст делать максимально контрастным, тем самым вы сводите к минимуму возможность появления растровых вставок в словах. Сделать этот краевой эффект можно очень сильным шарпом.
3. Почему-то объём файла, сделанный с помощью функции "Соединить файлы в один PDF" и предварительно настроенного импорта TIFF, получаются меньше по объёму, чем описанный метод в статье.
4. Так же можно оптимизировать получившийся файл, выбросив из него всё ненужное.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
Re: ClearScan
Ответ #8 - 09.02.2013 :: 12:11:43
 
slava_kry писал(а) 09.02.2013 :: 11:39:53:
Кстати, по поводу статьи по переводу с помощью CS, всё там прекрасно, НО есть нюансы .


Вы про эту статью?
http://shkolazhizni.ru/archive/0/n-54561/

там автор пользуется СканКромсатором для чистки, как я понял
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3496
Екатеринбург
Пол: male
Re: ClearScan
Ответ #9 - 09.02.2013 :: 12:14:00
 
slava_kry писал(а) 09.02.2013 :: 11:39:53:
оптимизировать получившийся файл, выбросив из него всё ненужное.

это как?? а факсимильность?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #10 - 09.02.2013 :: 12:14:12
 
Да, про неё.
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #11 - 09.02.2013 :: 12:18:09
 
AAW писал(а) 09.02.2013 :: 12:14:00:
это как?? а факсимильность?

Улыбка Дык, всё равно фон выкидывается, на тех дежавю, что вы мне показывали, остаются только картинки.
А если в принципе говорить о факсимильности, то CS тогда использовать нельзя (с оговорками)... и дежавю нельзя и вообще будет набор картинок в контейнере ПДФ. Улыбка И будет он неподъёмного размера. Как я это понимаю.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3496
Екатеринбург
Пол: male
Re: ClearScan
Ответ #12 - 09.02.2013 :: 12:20:38
 
я и спрашиваю - что и по каким критериям вы выбрасываете из файла. понятное дело, что 230Гб сканов Хроники человечества в пдф-контейнере, это крупный перебор. но и txt взамен дежавю, знаете ли...
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #13 - 09.02.2013 :: 13:38:44
 
Ну критериев множество. Я исхожу из размера файла и уже под него начинаю оптимизировать ПДФ.
1. разрешение картинок (600 - 300 - 200 - 150 dpi)
2. их качество сжатия.
3. Всякое по "мелочи": шумодавы, сглаживатели, ресэмплеры и т.д. и т.п.
4. выбрасываю фоны после CS, оптимизирую изображения отдельно.
5. последний рубеж - т.н. "разделённый скан", который позволяет творить всё что угодно, но и самый продолжительный по изготовлению.

Блин, да тут можно целую лекцию делать   Ужас Смех
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 3496
Екатеринбург
Пол: male
Re: ClearScan
Ответ #14 - 09.02.2013 :: 13:51:15
 
аа! я-то думал, вы про уничтожение рекламы, оглавления, пустых и полупустых страниц и обложек Очень довольный
Особо восторгаюсь на либгене книгами, состоящими из, скажем, 40 или 60 разворотов на 360 страниц полной книги. По какому принципу "вырезали" остальное - бог весть Улыбка "Недостойно сохранения. Я сказал!!"
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #15 - 09.02.2013 :: 13:55:06
 
Улыбка
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 4298
Санкт-Петербург
Re: ClearScan
Ответ #16 - 09.02.2013 :: 17:52:38
 
slava_kry писал(а) 09.02.2013 :: 13:55:06:
Улыбка

с "Вокруг Света 2006" еще не делали что-нибудь дальше?
действительно, при виде 160-страничного журнала весом 400 МБ оторопь берет Улыбка явный "контейнер" получается
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #17 - 09.02.2013 :: 18:01:39
 
Dmitry7 писал(а) 09.02.2013 :: 17:52:38:
с "Вокруг Света 2006" еще не делали что-нибудь дальше?

Нет не делал и в ближайшее время не придётся, т.к. с другой стороны пообещал сделать дело. Улыбка
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 210
Москва
Пол: male
Re: ClearScan
Ответ #18 - 09.02.2013 :: 18:57:15
 
Цитата:
Нет не делал и в ближайшее время не придётся

Цитата:
3. Всякое по "мелочи": шумодавы, сглаживатели, ресэмплеры и т.д. и т.п.
4. выбрасываю фоны после CS, оптимизирую изображения отдельно.
5. последний рубеж - т.н. "разделённый скан", который позволяет творить всё что угодно, но и самый продолжительный по изготовлению.
Блин, да тут можно целую лекцию делать

Очень жаль, меня тоже интересуют нюансы, как можно в акробате уменьшить размер пдф таких глянцевых журналов при полном сохранении везде исходного качества 600дпи.
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #19 - 09.02.2013 :: 19:11:26
 
Владислав_72 писал(а) 09.02.2013 :: 18:57:15:
исходного качества 600дпи.

Но в нём нет смысла, если вы не разбираетесь в обработке. И потом оно всегда понижается как минимум до 300.
Не знаю как выпрыгнуть из этой ситуации. Я могу снять видео обработки, но будет ли вам это понятным.
Принципиально обработка похожа на эту: http://youtu.be/FzxmfVGUfGY?t=1m5s
Попробую завтра чёнить замутить, но не обещаю 100%.

Ваши мысли, как мне передавать опыт, который больше на ощущениях и опыте, чем на жёстко закреплённых правилах. Улыбка
Наверх
 
 
IP записан
 
Владислав_72
Активист
***
Вне Форума



Сообщений: 210
Москва
Пол: male
Re: ClearScan
Ответ #20 - 09.02.2013 :: 21:00:31
 
Цитата:
Но в нём нет смысла, если вы не разбираетесь в обработке. И потом оно всегда понижается как минимум до 300.

Для меня в этом есть смысл (и уж в особенности для современных глянцев с высококачественными фото, я уже насмотрелся таких сканов на 300дпи, и понижать дпи лично у меня как-то нет желания).
Цитата:
Не знаю как выпрыгнуть из этой ситуации. Я могу снять видео обработки, но будет ли вам это понятным. Принципиально обработка похожа на эту: http://youtu.be/FzxmfVGUfGY?t=1m5s

Там обработка в ФШ, и кое-что мне понятно и сам этим пользуюсь, я думал, что это (п.3,4,5) можно делать напрямую в акробате (особенно самый сложный п.5), и удивился, тогда извините. По некоторым моментам в обработке с использованием ФШ (которые меня весьма интересуют, как некая альтернатива СК и СТ) у меня чуть позже будет к вам несколько вопросов, вот корректно сформулирую их и в ЛС вам отошлю.
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #21 - 10.02.2013 :: 06:26:17
 
Понятно направление, тогда уточню.
Пункт 3. В Акробате возможно только понижение разрешения и очищение структуры ПДФ при оптимизации.
Пункт 4. Делается полностью в Акробате и из него, но привлекается ФШ.
Пункт 5. Требует комплекс программ для работы, одним Акробатом там не отделаешься Улыбка
Наверх
 
 
IP записан
 
slava_kry
Активист
***
Вне Форума



Сообщений: 310
Re: ClearScan
Ответ #22 - 10.04.2015 :: 13:05:45
 
Посмотрел тут новый Акробат на предмет CS и вообще.
Интерфейс дерьмо излишне изменился. CS стал лучше работать:
(прямоугольниками выделены слова, которые CS 11-го оставил картинками)
...

Есть подмена на натуральный шрифт - нужно пробовать/смотреть. Сжатие стало получше без видимых последствий (вместо старых 64 МБ получил 48 МБ).
Наверх
 
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать