OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 ... 4 5 6 7 8 ... 16
Послать Тему Печать
Серия "Тетради новых терминов" Всесоюзного центра переводов (ВЦП) и др. (Прочитано 330164 раз)
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #150 - 17.12.2012 :: 18:56:00
 
niccolo писал(а) 17.12.2012 :: 17:42:26:
AAW
ибо из-за отсутствия аналогов функции «Search» Акробата в Джвюшном софте не считаю данный формат удобным для работы.


да что Вы говорите!???

есть там search, и я им прекрасно пользуюсь 5 лет:
можно найти и вывести все вхождения искомого сразу:

...


Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #151 - 17.12.2012 :: 19:03:06
 
Цитата:
да что Вы говорите!???


Дмитрий. Спасибо. Буду знать. Правда с Дежавю я уже лет 7-8 как серьёзно не работаю - примерно с тех пор как была решена проблема скорости «последней мили».
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #152 - 17.12.2012 :: 19:10:08
 
niccolo писал(а) 17.12.2012 :: 19:03:06:
Дмитрий. Спасибо. Буду знать. Правда с Дежавю я уже лет 7-8 как серьёзно не работаю - примерно с тех пор как была решена проблема скорости «последней мили».

пожалуйста!
моё личное мнение, если книга сделана из сканов, то djvu выигрывает у pdf . Тем более, что возможностей настройки у djvu очень много.
PDF хорош, когда изначально макет делается в нем, или конвертируется из текстового редактора
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #153 - 17.12.2012 :: 19:22:02
 
AAW писал(а) 17.12.2012 :: 07:20:15:
Отсканирую вып.18, 23-25, 27. Иду по порядку номеров, поэтому если номер пропустил, значит он мне недоступен. Или уже был сделан ранее.
@ niccolo
Тема обработки вашими силами - закрыта окончательно.

видно, придется мне этими ТНТ заниматься, но только после того, как разгребу уже начатое (3 толстые книги+ три десятка брошюр НВЖНИТ)
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #154 - 17.12.2012 :: 19:42:16
 
Dmitry7, вы за сканами не забудьте список НП-серии. Вон, Legion в Новых поступлениях регулярно "отчитывается" по ней.

@ niccolo
Что же до устава монастыря: мне фиолетово, пдф или дежавю, мне важно, чтоб как распечатка с электронной копии, так и сам электронный экземпляр были приличного вида. Близко к "на отлично", кто видел много эл.книг - тот понимает, о чём речь. А у вас и грязь осталась, и неравномерность бинаризации, и разные линейные размеры от страницы к странице. Да и размер никак не тянет на хорошую обработку, куда это годится, 7,5мб на 90 страниц текста без картинок. Вот и вышел совокупный результат "нафиг-нафиг".
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #155 - 17.12.2012 :: 19:52:57
 
AAW писал(а) 17.12.2012 :: 19:42:16:
Dmitry7, вы за сканами не забудьте список НП-серии. Вон, Legion в Новых поступлениях регулярно "отчитывается" по ней.

спасибо, что напомнили,  а то  совсем и забыл...
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #156 - 18.12.2012 :: 09:47:01
 
Цитата:
Что же до устава монастыря: мне фиолетово, пдф или дежавю, мне важно, чтоб как распечатка с электронной копии, так и сам электронный экземпляр были приличного вида. Близко к "на отлично", кто видел много эл.книг - тот понимает, о чём речь. А у вас и грязь осталась, и неравномерность бинаризации, и разные линейные размеры от страницы к странице. Да и размер никак не тянет на хорошую обработку, куда это годится, 7,5мб на 90 страниц текста без картинок. Вот и вышел совокупный результат "нафиг-нафиг".


Замечания принимаю.

Для меня главное содержание - неравномерность бинаризации и грязь, если не сказывается на читаемости и распознавании, браком не считаю - оригиналы не идеальны, печатать их не собираюсь.

А вот разные линейные размеры - это кривоголовые аббийцы - сейчас проверил опять - скинул все файлы из папки «out» SK в пакет ФР8, перераспознал (потому что не хочет так экспортить в ПДФ) и ппц - и размеры файлов на 25-30% разбухли и геометрия по ширине и высоте начала скакать вплоть до 50 пикселей.

Для PDF-экспорта лечится только принудительным выставлением размера страницы (и то наверное без проблем из-за полей в 50 пикс).
Что за кодописатели - что ни версия, то конкретные косяки, запарился с ними уже на их форуме воевать. В 11 вообще косяк видел, как после SK те файлы сторон разворота, в которых видимо сохранились остатки исходного EXIF ФР определял как 360 DPI. PDF получались....... загляденье - прыг-скок.

Размер 7,5 много? Страница 600 DPI tiff G4 ч/б после SK в среднем 70 кб на 90 6,3 МБ - цветная обложка + текстовый слой так и набегает.
Разницы 3 и 7 мб сейчас особо не вижу - незадействованных мощностей на ПК у всех вал-валом. Да и винты меньше терика - редкость.
Я работаю с текстом - вычитанный docx - 100 кб, 16LE Unicode text = 400 кб. (с исправленными скобками и русскими кавычками)

С учётом того, что сейчас ТНТ активно вычитываются и добавляются в Мультитран его создателем, что заметил Kis, через некоторое время интерес к ним существенно снизится.

AAW - я так понимаю, что сканы Вы дальше выкладывать не будете? Если оригиналы немецких тетрадок нужны - напишите, выложу. Правда, понимаю, что «подушки» у разворота отдельных тетрадок (49,43), Вас тоже не устраивают?
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #157 - 18.12.2012 :: 10:20:24
 
Нет, не буду выкладывать. Dmitry7 эти брошюрки расщёлкает как орешки в следующем году.

На страницу текста достаточно 10кб. Иногда 4. http://publ.lib.ru/cgi/forum/YaBB.pl?num=1110891070/153#153

"Если оригиналы немецких тетрадок нужны"
Нет, мне лично сканы ТНТ не нужны. Вообще в Сети я не для себя, а для других, отсюда и требования к качеству. То что "для себя" - по определению наружу не уходит, и я спокойно "косячу", зная, что пострадаю от этого только сам.
Странно мне видеть коммент "Для меня главное содержание" с одновременным "Замечания принимаю". Принять - значит исправить Улыбка А если не исправлять - то не может быть "принимаю". Может быть "понятно", но не "принято".

Но вы не принимайте Подмигивание близко к сердцу, тема в принципе уже закрыта.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #158 - 18.12.2012 :: 10:46:07
 
Цитата:
Принять - значит исправить  А если не исправлять - то не может быть "принимаю"


Вот вариант, со всеми исправлениями, которые могу сделать.

ТНТ 110. Англо-русские термины по методам экспериментальных исследований динамики и прочности 1987 (оригинальное оформление)

http://www.onlinedisk.ru/file/1002299/

PDF, OCR, 600 DPI, 7,6 мб

(исправлены неоднородные линейные размеры, переделаны страницы со следами мусора (уменьшена гамма при бинаризации - визуально мне больше нравятся жирные нежели тощие сканы)) 
(на качестве распознавания это никак!!! не сказалось)

Цитата:
На страницу текста достаточно 10кб. Иногда 4. http://publ.lib.ru/cgi/forum/YaBB.pl?num=1110891070/153#153


Цитата:
мне фиолетово, пдф или дежавю, мне важно, чтоб как распечатка с электронной копии


Покажите мне такой ПДФ. Про Djvu уже написал.

Дмитрий, вопрос Вам, если ли в Деже «Search» по нескольким документам или по всем документам в папке, как в Акробат.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #159 - 18.12.2012 :: 11:07:42
 
niccolo писал(а) 18.12.2012 :: 10:46:07:
Покажите мне такой ПДФ.

Зачем?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #160 - 18.12.2012 :: 13:18:07
 
Мне тема поиска по djvu тоже интересна, правда, пока не слишком актуальна. Из чтения разных форумов и faq-ов я понял, что поиск в djvu фактически сводится к стандартному движку Windows Search и к специальному плагину, который обеспечивает данные для этого движка, а это означает, что возможности поиска ограничены только возможностями ОС Windows. Также есть другие варианты поиска.
Вот ссылки: про Windows Search и др. и альтернатива с Total Commander.
Подозреваю, что Акробат использует тот же Windows Search со своим акробатовским плагином.
Наверх
 
 
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #161 - 18.12.2012 :: 13:37:15
 
Цитата:
Зачем?


Затем, что в моём понимании для PDF Вы поставили невыполнимое условие - на страницу текста достаточно 10кб. Иногда 4
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #162 - 18.12.2012 :: 13:49:04
 
Так его не я ставил. ПДФ - вы выбрали. Выберите дежавю и "проблема" снимется. Меня интересует конечный размер, ибо далеко не у всех толстые каналы и терабайтные винты.
Вообще-то я в требованиях к пдф ориентируюсь на книги, которые один и тот же человек делал в дежавю и пдф. Если человек толковый, знающий как сжимать, то размер получался практически одинаковым, при одинаковом, есс-но, качестве. Поискал в архиве Новых поступлений за 2010-2011гг, но почему-то не нашёл влёгкую таких примеров. Может, Вадим не публиковал Pdf-версию, если есть дежавю. Но точно помню, что на инфанате публиковали такие книги. Типа кому что нравится, выбирайте, вот вам две ссылки. Не всегда, но бывало.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #163 - 18.12.2012 :: 19:53:34
 
niccolo писал(а) 18.12.2012 :: 10:46:07:
Дмитрий, вопрос Вам, если ли в Деже «Search» по нескольким документам или по всем документам в папке, как в Акробат.

вроде бы нету. а это критично? я обычно по очереди ищу в разных файлах, времени не так уж много и уходит
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #164 - 18.12.2012 :: 20:55:57
 
когда-то давно мне наш коллега по цеху писал, что искал фамилию математика по своему архиву книг именно так, как нужно niccolo - по папкам, по всем файлам. думаю, речь шла про дежавю-книги.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #165 - 18.12.2012 :: 21:58:40
 
niccolo писал(а) 18.12.2012 :: 10:46:07:
Вот вариант, со всеми исправлениями, которые могу сделать.
ТНТ 110. Англо-русские термины по методам экспериментальных исследований динамики и прочности 1987 (оригинальное оформление)
http://www.onlinedisk.ru/file/1002299/


по ссылке ошибка выдается. проверьте, пожалуйста
или бросьте на ifolder
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #166 - 19.12.2012 :: 00:17:46
 
niccolo писал(а) 18.12.2012 :: 13:37:15:
невыполнимое условие - на страницу текста достаточно 10кб

Да ну?! Неужели даже из этого рафинированного примера не сумеете сделать pdf с 10 килобайтами на страницу?
Наверх
 
 
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #167 - 19.12.2012 :: 04:28:12
 
AAW писал(а) 18.12.2012 :: 20:55:57:
когда-то давно мне наш коллега по цеху писал, что искал фамилию математика по своему архиву книг именно так, как нужно niccolo - по папкам, по всем файлам. думаю, речь шла про дежавю-книги.

Для поиска в файлах на  компьютере ничего мощнее нет, чем Архивариус 3000. За этого монстра поиска 395 руб. совсем не много. Я в свое время себе купил.
Наверх
 
 
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #168 - 19.12.2012 :: 14:38:08
 
Цитата:
Для поиска в файлах на  компьютере ничего мощнее нет, чем Архивариус 3000. За этого монстра поиска 395 руб. совсем не много. Я в свое время себе купил.


У меня он тоже купленный есть. Даже когда-то помню автору помог баг исправить. Но вот то, что он порой за меня думает - мне не нравится (включенный по дефолту морфологический анализатор - на невычитанных текстах результат иногда крайне неприятный).

Да и кривонапечатанным ТНТ, особенно с машинопечатных форм - он что мёртвому припарка, если Вы конечно не вычитаете их. А если вычитаете - то зачем вообще графика.

Но речь здесь пока идёт о результирующих файлах и удобстве работы с ними в родных программах.

KIS
Цитата:
Да ну?! Неужели даже из этого рафинированного примера не сумеете сделать pdf с 10 килобайтами на страницу?


Впечатляет. Но зачем он без текстового слоя?

Простая печать в PDF - 8,5 МБ на выходе (600DPI). Судя по ровности букв при максимальном увеличении в Акробате - это печатный документ, а не скан.
PDF -> FR8 -> OCR -> OUT — 8,7 МБ.

Сохраняем чисто текстовый PDF, без встраивания шрифтов - 330 кб - УРРРА, СУМЕЛ!!! Улыбка)). Только кому это надо на ТНТ.

Первая в данном топике кажется такой и была - запарился вычитывать и сопоставлять оригиналы и переводы. Если бы был оригинал, проще бы пересканировать было.

Сохраняем в Unicode 16 bit - 375 кб - хуже, но работать удобно. ANSI даст в 2 раза меньше, UTF8 - почти в 2 раза меньше.

Но в вашем примере идеальный текст, не требующий вычитки. ТНТ - полная противоположность ему. Там еще часто и исправление грамматических ошибок оригинала требуется.

Дальше можно развить мысль что ANSI круче Djvu...

Цитата:
по ссылке ошибка выдается. проверьте, пожалуйста или бросьте на ifolder


Мне выдаёт профилактику на сервере. Подождите чуть.

Цитата:
когда-то давно мне наш коллега по цеху писал, что искал фамилию математика по своему архиву книг именно так, как нужно niccolo - по папкам, по всем файлам. думаю, речь шла про дежавю-книги.


Я думаю, если бы это была простая задача, упоминать сие не было бы никакого смысла.

У меня обычно в акробате открыто 3-5, реже более книг. В 30% случае требуется поиск по всем им.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #169 - 20.12.2012 :: 05:44:21
 
Взял вып.28-33.

Мне в личке прислали ссылку на книгу 1963 года. В pdf. Явно нераспознанную в вектор, т.к. виден небольшой мусор между букв, да и буквы скачут так, как были набраны. Объём 6Мб, страниц 336. Итого 18кб/стр.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #170 - 20.12.2012 :: 07:31:58
 
Цитата:
Мне в личке прислали ссылку на книгу 1963 года. В pdf. Явно нераспознанную в вектор, т.к. виден небольшой мусор между букв, да и буквы скачут так, как были набраны. Объём 6Мб, страниц 336. Итого 18кб/стр.


Это просто замечательно. Но если так, право бы хотелось подробное описание технологии получения таких файлов со ссылками на используемый софт в студию.
ИМХО - всё то, что близко к чистому однобайтному тексту - это уже за гранью моего понимания (с учётом требования наличия графики 600 DPI) и исходной кривости ТНТ как печатных документов.
Я свою технологию описал. Как получались рекордные по сжатию книги - не знаю. Но право же 18 кб это не 10, но и не 60-70.
Наверх
 
 
IP записан
 
Kis
Активист
***
Вне Форума



Сообщений: 430
Россия, Москва
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #171 - 20.12.2012 :: 08:32:00
 
@
niccolo

Налицо не "за гранью понимания", а полное непонимание. Стоит начать с элементарных faq-ов. Например, с этого. Я не совсем безоговорочно согласен со всем, что там написано, но считаю, что написано весьма хорошо. На том же сайте есть немало материала с описанием технологий. Глядишь, и в стан поклонников djvu перейдете. Улыбка
Наверх
 
 
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #172 - 20.12.2012 :: 10:23:27
 
Цитата:
Налицо не "за гранью понимания", а полное непонимание. Стоит начать с элементарных faq-ов. Например, с этого. Я не совсем безоговорочно согласен со всем, что там написано, но считаю, что написано весьма хорошо. На том же сайте есть немало материала с описанием технологий. Глядишь, и в стан поклонников djvu перейдете.


С Djvu я начинал работу в эпоху преснопамятного DjvuSolo и перешёл на PDF сразу же после обнаружения бага и/н, ибо технологии программного повышения разрешения тогда не было, а быстрые сканеры в 600 DPI были очень дороги. После я еще следил за темой и на руборде и в других местах до появления «жирных» каналов, а затем забил.

Я работаю с текстом, в частности с dsl (исходный формат словарей Лингво). Именно для конвертации в него мне и нужны тетрадки. Поэтому и степень качества для меня ограничивается порогом, после которого не наблюдается улучшение распознавания.
Вам тут хорошо - у Вас есть AAW да и другие, наверное, которые при необходимости могут помочь с качественными сканами редких книг. У меня таких людей нет, поэтому и приходится работать даже с таким шлаком, как здесь
http://do.rulitru.ru/v2907/бунин_г.м.,_кемежук_н.к._немецко-русский_словарь_по_о...
Поэтому я не очень требователен к качеству - всё читается уже замечательно, а хорошо или очень хорошо - уже до лампочки.

К вышеозначенному факу можно добавить, что при всех преимуществах DjVU до сих пор нет программы, позволяющей создавать такие файлы с OCR слоем одним щелчком мыши (например из пакета FR8, форматы файлов в котором уже изучены). Сидеть и собирать Djvu, тратя не намного меньше времени, чем потребуется на вычитку текста, оно надо?

К тому же, насколько я вижу, в силу постоянного удешевления гигагерцев и гигабайтов актуальность преимуществ Djvu над PDF уже утрачена, о чём свидетельствует и закат соответствующих топиков и софта.
Поэтому давайте лучше каждый останется при своём мнении и продолжим делать общую работу - Вы для своей библиотеки, я — для своих задач.
Наверх
 
 
IP записан
 
balik2
Активист
***
Вне Форума


Всем привет!

Сообщений: 226
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #173 - 20.12.2012 :: 10:40:18
 
niccolo писал(а) 20.12.2012 :: 10:23:27:
С Djvu я начинал работу в эпоху преснопамятного DjvuSolo и перешёл на PDF сразу же после обнаружения бага и/н, ибо технологии программного повышения разрешения тогда не было, а быстрые сканеры в 600 DPI были очень дороги. После я еще следил за темой и на руборде и в других местах до появления «жирных» каналов, а затем забил.

Я работаю с текстом, в частности с dsl (исходный формат словарей Лингво). Именно для конвертации в него мне и нужны тетрадки. Поэтому и степень качества для меня ограничивается порогом, после которого не наблюдается улучшение распознавания.
Вам тут хорошо - у Вас есть AAW да и другие, наверное, которые при необходимости могут помочь с качественными сканами редких книг. У меня таких людей нет, поэтому и приходится работать даже с таким шлаком, как здесь
http://do.rulitru.ru/v2907/бунин_г.м.,_кемежук_н.к._немецко-русский_словарь_по_о...
Поэтому я не очень требователен к качеству - всё читается уже замечательно, а хорошо или очень хорошо - уже до лампочки.

К вышеозначенному факу можно добавить, что при всех преимуществах DjVU до сих пор нет программы, позволяющей создавать такие файлы с OCR слоем одним щелчком мыши (например из пакета FR8, форматы файлов в котором уже изучены). Сидеть и собирать Djvu, тратя не намного меньше времени, чем потребуется на вычитку текста, оно надо?

К тому же, насколько я вижу, в силу постоянного удешевления гигагерцев и гигабайтов актуальность преимуществ Djvu над PDF уже утрачена, о чём свидетельствует и закат соответствующих топиков и софта.
Поэтому давайте лучше каждый останется при своём мнении и продолжим делать общую работу - Вы для своей библиотеки, я — для своих задач.


встраивание текстового слоя с файнридера сейчас занимает минут 5 от силы. сохраняете в файнридере распознанные картинки в формате djvu, извлекаете из него текстовый слой и вставляете в свой нормальный djvu, создание которого также занимает минут 10 в зависимости от объема и количества картинок. но для этого надо 11 файнридер, старые версии не подходят
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #174 - 20.12.2012 :: 11:02:28
 
niccolo писал(а) 20.12.2012 :: 10:23:27:
Поэтому давайте лучше каждый останется при своём мнении и продолжим делать общую работу - Вы для своей библиотеки, я — для своих задач.

И я об этом же
AAW писал(а) 17.12.2012 :: 07:20:15:
Тема обработки вашими силами - закрыта окончательно.

Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #175 - 20.12.2012 :: 11:56:18
 
Цитата:
встраивание текстового слоя с файнридера сейчас занимает минут 5 от силы. сохраняете в файнридере распознанные картинки в формате djvu, извлекаете из него текстовый слой и вставляете в свой нормальный djvu, создание которого также занимает минут 10 в зависимости от объема и количества картинок. но для этого надо 11 файнридер, старые версии не подходят


Для работы с текстом ТНТ, особенно отпечатанных на машинке, после 11 FR я тоже могу сказать как AAW - зачем такой текстовый слой нужен.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #176 - 24.12.2012 :: 14:44:37
 
взял вып.36,37,39-42.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #177 - 26.12.2012 :: 20:15:04
 

Вып. 062. начал обработку
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 5871
Санкт-Петербург
Пол: male
Re: Серия "Тетради новых терминов"
Ответ #178 - 27.12.2012 :: 21:56:30
 


Выпуск 062 - Англо-Русские термины по металловедению и термической обработке металлов. Сост. А.Б. Парцевский, М., 1984



...

Аннотация: Металловедение относится к числу быстроразвивающихся наук, что связано с повышением требований к качеству металлов, а также о разработкой новых металлов и сплавов. Расширение наших знаний в металловедении связано с успехами в развитии теории электронного строения металлов, теории дислокаций, физики твердого тела и механики разрушения, теории дефектов металла. Все это сопровождается возникновением новой и уточнением старой научно-технической терминологии. В этом выпуске содержится 1160 новых английских терминов по металловедению и термической обработке металлов с их русскими эквивалентами и 150 сокращений, отсутствующих в ранее вышедших словарях. Многие термины сопровождаются определениями и пояснениями.

Scan AAW,         обработка и OCR - мои


djvu+OCR 600 dpi, 5 Мб

...


и в PDF с подложенным OCR. 8 Мб

...


@
Niccolo
Если хотите сделать PDF в своем стиле, cделайте, только ОСR-слой заново создайте, я тщательно не вычитывал.

Наверх
« Последняя редакция: 12.01.2013 :: 21:21:59 от Dmitry7 »  

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
niccolo
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 185
Re: Серия "Тетради новых терминов"
Ответ #179 - 28.12.2012 :: 09:33:46
 
Цитата:
Если хотите сделать PDF в своем стиле, cделайте, только ОСR-слой заново создайте, я тщательно не вычитывал.


Спасибо. Я не вычитываю текст в ФР. Я стараюсь добиться сравнительно качественного распознавания.
Наверх
 
 
IP записан
 
Страниц: 1 ... 4 5 6 7 8 ... 16
Послать Тему Печать