Цитата: Как у Винни-Пуха с правильнописанием: "оно хорошее, но оно хромает". Кому, например, из читателей нужно вычислять пропуски в скачанном pdf.
Зачем читателю вычислять. Он увидит. А вот сканировщику/конвертеру такой индикатор не помешал бы....
Цитата:Или как пронумеровать (обозначить) вкладку, если не арабскими цифрами.
Специально выделю ещё раз.
обложка + форзац + введение от I до XII - стр I-XV или a,b,c,d,e etc.Экзотику, типа иероглифов, или двойную нумерацию, я даже не трогаю, хотя это просто само-собой разумеющиеся вещи.
Цитата:удалил лишние страницы, распознал, добавил удаленное обратно.
Еще раз.
1) Мне не удалось добиться такого (меньшего) количества ошибок распознавания в своих результатах и со своим опытом, по сравнению с оригиналами в Архиве, распознанными без русского. В чём причина этого, я не знаю, но не исключаю пост OCR коррекции проприетарными алгоритмами исправления ошибок OCR гугля.
Поэтому я не вижу смысла плодить каки... Их уже и так наплодили... В архиве начали появляться версии словарей, снятые на DMark - качество получше, но с разворотами тоже беда....
Да и как погляжу, гигатома - 2 и 12, никто не рвётся сделать хорошо.
Глядя на то, как ФР во всех версиях умудряется распознавать невозможные для языков сочетания букв — уровень аналитической работы лингвистического отдела Abbyy за последние 10 лет — «0»....
Остальное вы и сами видите. Чем люди занимались с выхода 8 версии, кроме добавления нескольких языков и форматов, Я СОВСЕМ НЕ ПОНИМАЮ, но глядя на всё это я не советую покупать последние версии FR - проще на Авито купить за копейки какой-нибудь старенький Эпсон с FR8 в комплекте или просто старые версии...
2) Проблема в проверке ошибок и возможности работы с указателем тем, кто будет работать с файлами...
Попытайтесь получить удовольствие от т.14 - он уже выложен.... Заодно мозги арифметикой натренируете....
Возиться с мусором, чего-то из него составляя, зная что есть нормальные файлы, которые кто-то, где-то и надеюсь-доживу сделает, у меня нет желания.....Мне хватило ручной расстановки блоков во всех 17 томах, поиска, выдёргивания, распознавания страниц, которых в них нет и массы других вещей, чтобы привести всё к нормальному текстовому виду с картинками (правда страшненькими и подслеповатыми в отдельных томах - ну да кому надо и так поймёт, если в теме)
Всё это больше для тех, кто будет работать с хорошими файлами после меня...
Я уже свою работу почти заканчиваю. Как раз немного и французский и испанским вспомнил....