OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Программа для извлечения колонок из отсканированных страниц (Прочитано 172 раз)
apomin
Новичок
*
Вне Форума


Всем привет!

Сообщений: 1
Программа для извлечения колонок из отсканированных страниц
18.03.2026 :: 11:50:21
 
Преобразует графический файл из нескольких колонок в одну. Удаляет хедеры, футеры, вертикальные линии и пр.
Работает путём вычисления положения объектов на странице, потому что на каждой странице элементы могут быть расположены в разных местах.

Программа разрабатывается и используется для файлов, полученных с поточного сканера - без затемнений и "ползущих" строк, одна страница на файл.

Описание в этом же в архиве.

http://multitran.com/download/splitter.rar

Используется для предварительной обработки отсканированных словарей. Несколько колонок склеиваются в одну. Тогда всё изображение целиком можно объявить зоной текста в Файнридере. Это позволяет исключить автоопределение областей, в результате которого иногда возникают оторванные блоки.

Программа является частью более сложной технологии по выверке отсканированных словарей. В двух словах, используется робот для извлечения сканов отдельных строк из пакета Файнридера. Текстовые строки и соответствующие им графические сканы преобразуются в специальный формат для дальнейшей проверки текста через веб-интерфейс. Сам Файнридер, как ни странно, для выверки опечаток не очень подходит, так как не позволяет делать автозамену с одновременным просмотром всех заменяемых строк.

В основном это имеет смысл для больших книг, содержащих много опечаток. Кстати, веб-интерфейс позволяет одновременно работать над вычиткой книги множеству людей. Подготовкой книг в нужном формате и всем сопутствующим ПО занимаюсь я один, поэтому всё довольно специфично. Не стояло задачи делать из этого отдельный продукт. Пока выкладываю только разделитель колонок.
Если эта технология кому-то любопытна, можно пообщаться.
Наверх
 
 
IP записан
 
Dmitry7
Модератор
*****
Вне Форума


Соберем Серии "НВЖНиТ"!

Сообщений: 6081
Санкт-Петербург
Пол: male
Re: Программа для извлечения колонок из отсканированных страниц
Ответ #1 - 19.03.2026 :: 22:38:11
 
Спасибо!
Наверх
 

"Если хочешь сделать что-то хорошо, сделай это сам!"
332371574  
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать