OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
ClearText: инструмент для обработки сканов с помощью AI (Прочитано 660 раз)
Ваня
Новичок
*
Вне Форума


Всем привет!

Сообщений: 11
Санкт-Петербург
Пол: male
ClearText: инструмент для обработки сканов с помощью AI
28.04.2025 :: 18:48:51
 
Всем привет!

Хотел бы поделиться с вами полезным инструментом, который, возможно, окажется интересным и поможет в работе с отсканированными книгами.

Речь о ClearText — проекте на GitHub, основанном на методах искусственного интеллекта:
🔗 https://github.com/ajinkya933/ClearText

Что делает ClearText
  • Обнаруживает текст на изображениях и автоматически повышает его читаемость;
  • Помогает справляться со спеклами и дефектами от сканирования;
  • Поддерживает пакетную обработку.

    Долго искал удобное решение для устранения мелких артефактов и повышения качества текста на сканах. Стандартные методы обработки (биниризация, удаление спеклов вручную) не всегда давали желаемый результат.

    ClearText значительно упростил мне этот процесс. За последнее время с его помощью обработал четыре книги. Две из них уже выложены на форуме, вы можете сами оценить качество обработки:
    📖 Ильина Т.В. Иван Яковлевич Вишняков. Жизнь и творчество (1979)
    📖 Робинсон Д. Чарли Чаплин. Жизнь и творчество (1990)

    Как можно использовать
    - Для Windows доступен установочный exe-файл, файл взят с главной страницы на GitHub;
    - Также можно запускать через Docker (Linux/Mac/Windows) для тех, кто предпочитает контейнеры.

    Примеры работы можно посмотреть здесь: 
    ▶️ ClearText обработка одной страницы
    ▶️ ClearText пакетная обработка

    Немного о проекте 
    ClearText — это свободное программное обеспечение (лицензия MIT). Автор проекта — Ajinkya Bobade.
    При желании можно оставить пожелания или задать вопросы разработчику: GitHub Issues или LinkedIn

    Публикую этот пост исключительно с целью, что он будет полезен тем, кто, как и я, занимается оцифровкой и обработкой книг. 
    Это не реклама, личная рекомендация после положительного опыта работы с инструментом.

    Буду рад, если кому-то ClearText тоже окажется полезен Улыбка

    С уважением! 
  • Наверх
    « Последняя редакция: 29.04.2025 :: 11:01:22 от Ваня »  
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #1 - 28.04.2025 :: 21:51:30
     
    Спасибо, попробую! Улыбка
    Наверх
     
     
    IP записан
     
    AAW
    Патриарх
    *****
    Вне Форума


    Старую детскую и НП литературу
    ничем не заменить

    Сообщений: 5674
    Екатеринбург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #2 - 29.04.2025 :: 06:22:59
     
    на ютьюб первая ссылка недоступна.
    вторая вот, если кто не сможет с ютьюба сдернуть
    https://disk.yandex.ru/i/yUTh1uSPbSWdMQ

    UPD

    первая ссылка, копия на ЯД
    https://disk.yandex.ru/i/5SWSxOMvam3CzA
    Наверх
    « Последняя редакция: 29.04.2025 :: 11:16:21 от AAW »  

    Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
    155803224  
    IP записан
     
    Ваня
    Новичок
    *
    Вне Форума


    Всем привет!

    Сообщений: 11
    Санкт-Петербург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #3 - 29.04.2025 :: 11:03:31
     
    AAW писал(а) 29.04.2025 :: 06:22:59:
    на ютьюб первая ссылка недоступна.
    вторая вот, если кто не сможет с ютьюба сдернуть
    https://disk.yandex.ru/i/yUTh1uSPbSWdMQ

    Здравствуйте
    Спасибо, исправил ссылку Улыбка
    Наверх
     
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #4 - 29.04.2025 :: 19:39:56
     
    А модно одну страницу исходника из вашей обработки?
    Наверх
     
     
    IP записан
     
    slava_kry
    Гуру
    ****
    Вне Форума



    Сообщений: 565
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #5 - 29.04.2025 :: 20:04:09
     
    Спасибо, посмотрим. Улыбка
    Наверх
     

    Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #6 - 29.04.2025 :: 20:06:04
     
    Вот что получатся из сканов.
    До и после
    ...
    Теряется част текста.
    ...
    https://disk.yandex.ru/i/GMpnVpkx-mRYxw
    Наверх
    « Последняя редакция: 29.04.2025 :: 20:19:44 от waleriy »  
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #7 - 29.04.2025 :: 20:18:16
     
    Лучше уж в Scan Enhancer  обработать. Там настрой есть.
    https://disk.yandex.ru/i/Ip-Hwp8_xTpT0g
    Наверх
     
     
    IP записан
     
    Ваня
    Новичок
    *
    Вне Форума


    Всем привет!

    Сообщений: 11
    Санкт-Петербург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #8 - 29.04.2025 :: 21:03:28
     
    waleriy писал(а) 29.04.2025 :: 19:39:56:
    А модно одну страницу исходника из вашей обработки?

    Загрузил четыре разворота для примера:
    https://disk.yandex.ru/d/Ytd9srcpIVwqwA

    Там также есть настройки для обнаружения текста по краям. Попробуйте увеличить отступы:
    https://disk.yandex.ru/i/jaLiahqj1cP37Q

    Вы имеете в виду эту программу:
    https://sourceforge.net/projects/scan-enhancer/

    Не знал про неё, спасибо Улыбка
    Наверх
     
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #9 - 29.04.2025 :: 21:38:38
     
    Спасибо, настройки помогли!
    Наверх
     
     
    IP записан
     
    waleriy
    Гуру
    ****
    Вне Форума


    Всем привет!

    Сообщений: 542
    Москва
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #10 - 29.04.2025 :: 21:46:27
     
    Наверх
     
     
    IP записан
     
    slava_kry
    Гуру
    ****
    Вне Форума



    Сообщений: 565
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #11 - Вчера :: 06:33:21
     
    Не знаю. И то и другое как-то не очень. Улыбка
    Вектор - это круто, но качество так себе у Scan Enhancer

    Вот я взял "страницу-тест" и обработал в CT Вольфом. Ни один из предложенных продуктов так не справился. Улыбка
    Страница громадная по размерам и разрешению. Текст по размеру всякий, сложность... ну средняя (визуально).

    https://disk.yandex.ru/d/7N7OjkhR-Mnadw (54 мега)
    Внутри архива 2 файла: оригинал и битмап СТ Вольф
    Наверх
     

    Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
     
    IP записан
     
    Ваня
    Новичок
    *
    Вне Форума


    Всем привет!

    Сообщений: 11
    Санкт-Петербург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #12 - Вчера :: 15:16:18
     
    Спасибо за примеры!

    Попробовал повернуть страницу против часовой стрелки с отступами по 400 пикселей:
    https://disk.yandex.ru/i/b5jyH9Z6XA2XuQ

    Получился такой вариант:
    https://disk.yandex.ru/i/6ijtYFd2u-KHow
    Наверх
     
     
    IP записан
     
    slava_kry
    Гуру
    ****
    Вне Форума



    Сообщений: 565
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #13 - Вчера :: 18:30:08
     
    @
    Ваня
    Вот и "подводные камни" Улыбка
    Интересно, а почему так? Улыбка
    Наверх
     

    Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
     
    IP записан
     
    bolega
    Гуру
    ****
    Вне Форума



    Сообщений: 831
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #14 - Вчера :: 19:22:09
     
    slava_kry писал(а) Вчера :: 06:33:21:
    Вот я взял "страницу-тест" и обработал в CT Вольфом. Ни один из предложенных продуктов так не справился. Улыбка

    Ну не знаю, после вашего Вольфа пятна местами стали черными, это никуда не годится. Посмотрите "р" в слове "государства". То же самое ниже в "торговля".
    В варианте от Вани качество лучше, но заметно сильное сглаживание.
    Вот после СК https://workupload.com/file/TefsLhzLXHX
    Не идеал конечно.
    Наверх
     
     
    IP записан
     
    slava_kry
    Гуру
    ****
    Вне Форума



    Сообщений: 565
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #15 - Сегодня :: 08:09:29
     
    @
    bolega
    Я не претендую на Идеал и не писал об этом.
    Просто "что нового" в предлагаемых программах? Я так и не понял, объяснения не увидел.
    Взял достаточно проблемный оригинал и быстро обработал текущими средствами. Вы прекрасно знаете, что я без Фотошопа не обхожусь, здесь я его не трогал, а так, конечно, бы подправил.

    Как-то относительно давно был конкурс по нейронным сетям "по вытаскиванию надписей" из писем. Выиграли наши товарищи, но куда ушли результаты этого я не знаю. Ничего подобного я вокруг не вижу.

    Вектор позволяет многое, но там проблема при большом количестве текста - размер вырастет очень сильно из-за отсутствия шрифтов.

    Вот и получается - это "узкий инструмент" или какая-то концепция, но пока сырая? Пусть ответит
    @
    Ваня

    Наверх
     

    Он сказал им: вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом.
     
    IP записан
     
    AlVaKo
    Гуру
    ****
    Вне Форума



    Сообщений: 634
    Алма-Ата
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #16 - Сегодня :: 11:22:30
     
    Просто адаптивная бинаризация, параметры не подбирал. Перед бинаризацией, никаких фильтров и вычитания фона. Данная бинаризация тупо переводит цвет в оттенки серого и  работает с яркостью. После, автоматическая легкая чистка от мелкого мусора.

    https://transfiles.ru/lsq54
    Наверх
     

    Сложно отбинаризировать черную перемычку на белой бумаге, особенно если её там нет.
     
    IP записан
     
    bolega
    Гуру
    ****
    Вне Форума



    Сообщений: 831
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #17 - Сегодня :: 12:18:43
     
    На самом деле этот скан в прекрасном качестве, и что важнее, типография превосходная и отлично сохранилась. Поэтому тут любой подходящий метод даст хороший результат. Пятна это ерунда.
    Гораздо сложнее случаи, когда от времени буквы неравномерно бледнеют, "осыпаются", бумага желтеет и выцветает. Вот тут мучение.
    Наверх
     
     
    IP записан
     
    AAW
    Патриарх
    *****
    Вне Форума


    Старую детскую и НП литературу
    ничем не заменить

    Сообщений: 5674
    Екатеринбург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #18 - Сегодня :: 13:18:49
     
    Наверх
     

    Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
    155803224  
    IP записан
     
    Ваня
    Новичок
    *
    Вне Форума


    Всем привет!

    Сообщений: 11
    Санкт-Петербург
    Пол: male
    Re: ClearText: инструмент для обработки сканов с помощью AI
    Ответ #19 - Сегодня :: 15:23:09
     
    slava_kry писал(а) Вчера :: 18:30:08:
    @
    Ваня
    Вот и "подводные камни" Улыбка
    Интересно, а почему так? Улыбка

    По правде говоря, точно не знаю, почему так происходит
    Лучше всего напрямую спросить у разработчика в ocr-community, это сообщество в Slack посвященное проекту ClearText
    Думаю, там подскажут точнее) Можно также оставить пожелания или идеи по улучшению Улыбка

    Проект молодой — появился на GitHub 15 января 2025 года,
    и у него есть потенциал для роста Улыбка
    Наверх
     
     
    IP записан
     
    Переключение на Главную Страницу Страниц: 1
    Послать Тему Печать