OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Страниц: 1 2 
Послать Тему Печать
Удаление мусора (Прочитано 27276 раз)
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Удаление мусора
02.07.2018 :: 13:51:38
 
Всем привет. Я тут новенький и зашел случайно. Суть проблемы следующая: чем ниже плотность бумаги, тем хуже выглядит скан (настройки порога в сканере не помогают). Причина в том, что на ключевой странице проступает текст от предыдущей. Можно конечно руками чистить, но это на месяцы, если страницы исчисляются тысячами. И топовые программы (например Abbyy) не имеют настроек для очистки страницы от этого мусора. Или другая проблема: рукописный текст, который нужно удалить со скана. В общем, это может быть любой мусор, который мешает распознаванию.

Несколько месяцев пытался решить эту проблему и решил нейросетями. Насколько это интересно и востребовано в вашей работе?

Картинка для понимания:

...
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #1 - 02.07.2018 :: 14:41:49
 
T2k писал(а) 02.07.2018 :: 13:51:38:
Насколько это интересно и востребовано в вашей работе?

На 100%.
Вам можно подсунуть подобные сканы и вы покажете результат обработки?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #2 - 02.07.2018 :: 15:20:08
 
Да, можно и нужно.
У меня задача была локальная — обработать одну большую книгу (1300 стр). Для этого очистил вручную от мусора 5 страниц и их скормил нейросети для обучения. Она обучилась на этих 5 и дальше сама чистила 1295.

Но я не против добавить и ваш "мусор" для обучения.
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #3 - 02.07.2018 :: 15:37:36
 
Вот несколько другая задача, но с тем же смыслом. Нужно было выделить только рукописный.
Результат работы:
...

Аналогично можно обучить нейросеть удалять только рукописный и оставлять печатный.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #4 - 02.07.2018 :: 18:36:22
 
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #5 - 03.07.2018 :: 10:36:38
 
Но этого мало. Мне только чтобы обучиться нужно от 5 шт. каждого типа.

Нейросеть видела только мои картинки. Как же она будет предиктить новые, если "в ее голове" пустота? Это равносильно тому, чтобы научится читать на русском, а потом сразу заставить читать на испанском. Ничего не получится. Реальные нейросети обучаются на тысячах разных картинок, но я понимаю, что такой объем тяжело достать.

Я предлагаю поступить следующим образом. Вы высылаете несколько типов плохих станиц в количестве от 5 шт. Я размечу их и обучу нейросеть. После этого вы можете выслать любой объем плохих этого же типа и нейросеть их сможет улучшить.


Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #6 - 03.07.2018 :: 11:08:37
 
Тогда уточняющий вопрос: непонятно что значит "этого же типа". Абсолютно непонятно.
Я вас так понял, что вы подсовывали нейросети "буквы отпечатанные" или "буквы рукописные". Она уже обучилась "буквам отпечатанным", соответственно найдёт их и в моих сканах.
В книгах почти никогда не бывает огромной массы однотипно "запорченных" страниц. Такой, чтобы настройка под конкретный косяк была целесообразна по ручным затратам. Вот, скажем, в моей пачке ужасный пример, когда текст с изнанки практически равен передней стороне листа. Такая тетрадка - одна в книге. 16 или 32 страницы. Если обязательно нужно вычистить не менее пяти - нууу... остальные 11 кажутся не столь уж невероятным ручным трудом.
Что-то тут "не то". Допустим, книга исчёркана. Карандашные галочки, ручечные подчерки слов, кое-где волнистые линии цветной ручкой вдоль боковой стороны абзацев. В книге 200 страниц, из них исчёркано - штук 40, может 60. Понемногу, в разных местах, разный тип почеркушек. И что нужно нейросети чтобы "настроиться"?

Разумеется, если бы нейросеть смогла убрать марашки (вертикальные чёрточки между букв), это было бы уже кое-что. Они - типичны для старых наборных книг.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #7 - 03.07.2018 :: 11:39:29
 
Чтобы настроиться, её нужно чему-то обучить сперва. И тут проблема — отсутствие данных (картинок для обучения). Мне их просто негде взять.

Вот для примера, чтобы научить качественно разделять кошек от собак по фото, нейросети нужны десятки тысяч примеров. С сегментацией (это я уже про буквы в сканах) проще, такой большой объем не нужен, но нужны сотни (с одного скана получается порядка 50-60 картинок для обучения, т.к. я их дроблю на куски). Но если их будет больше, то тем лучше будут веса, тем лучше будут предсказания модели.

Давайте и начнем с мурашек. В идеале, нужно иметь до 20 страниц с мурашками. Желательно, чтобы с разных книг (ну, скажем, по 2-3-5 страницы с одной книги). Вот после этого, можно будет любые книги вообще чистить от мурашек. Т.е. модель "насмотрится" и успешно обучится. Можно и меньше, скажем 5 и только с одного источника, как это делал я в своей книге. Но тогда модель и будет предсказывать только этот источник (других-то она не видела никогда).
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #8 - 03.07.2018 :: 11:45:28
 
T2k писал(а) 03.07.2018 :: 11:39:29:
Давайте и начнем с мурашек.

Хорошо, поищу сегодня вечером. Может, ещё кто подкинет.

---
А как потом этой нейросетью самостоятельно пользоваться? Не всё же вас просить.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #9 - 03.07.2018 :: 12:18:32
 
Вот, кстати, с рукописным на одной из ваших страниц.
...

Результат так себе. Причина в том, что обучал на специальных бланках (в котором ограниченное количество печатных букв и всего 2 шрифта для печатных). Т.е. нейросеть никогда не видела ваших печатных букв. В тоже время, мои бланки она разделяет гораздо лучше меня и быстрее в миллионы раз.
Наверх
« Последняя редакция: 03.07.2018 :: 12:27:20 от T2k »  
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Удаление мусора
Ответ #10 - 03.07.2018 :: 13:40:51
 
T2k
в каком формате вам изображения залить?
Черно-белый, grayscale 8 bit, цветные?

Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Удаление мусора
Ответ #11 - 03.07.2018 :: 13:46:20
 
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #12 - 03.07.2018 :: 13:55:31
 
Ещё вопрос: а ориентация текста (букв) имеет значение? Наклон, небольшой, или поворот на ~90град?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
zorro04
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 115
Re: Удаление мусора
Ответ #13 - 03.07.2018 :: 14:26:21
 
Тут на руборде товарищ что-то подобное по очистке мусора от дефектов печати собрал, правда, без новомодных "нейросетей", все настройки ручками в конфиге:  https://yadi.sk/d/1uK9SxXl3YKXmf
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #14 - 03.07.2018 :: 15:33:10
 
AAW писал(а) 03.07.2018 :: 13:55:31:
Ещё вопрос: а ориентация текста (букв) имеет значение? Наклон, небольшой, или поворот на ~90град?


Не так важно. Аугментацию я и так делаю (т.е. принудительно поворачиваю под разными углами в момент обучения). 
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #15 - 03.07.2018 :: 15:35:27
 
mor писал(а) 03.07.2018 :: 13:40:51:
T2k
в каком формате вам изображения залить?
Черно-белый, grayscale 8 bit, цветные?



Любые. Приятнее, конечно, с цветными. Но если будут ч/б или серые, то тоже норм.
Наверх
 
 
IP записан
 
bolega
Патриарх
*****
Вне Форума



Сообщений: 1104
Re: Удаление мусора
Ответ #16 - 03.07.2018 :: 16:39:35
 
T2k
Вещь несомненно полезная. По мне, так самое ужасное в сканах - это мурашки в советских книгах (межбуквенные палочки, касающиеся букв или изолированные). По сравнению с ними все стальное ерунда.
Но главный вопрос: для чего эту тему подняли? Вы готовы предоставить всем безвозмездный инструмент для свободного использования или просто хвалитесь?  Подмигивание Или в целях рекламы?
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Удаление мусора
Ответ #17 - 03.07.2018 :: 16:45:47
 
T2k писал(а) 03.07.2018 :: 15:35:27:
Любые. Приятнее, конечно, с цветными. Но если будут ч/б или серые, то тоже норм.

А если по реальную обработку говорить? Я обычно сканы чищу в конце, когда изображение бинаризировано.
Смысла очищения от "мусора" цветных изображений я особо не вижу. Либо храним полноценнное фото/скан со всеми проблемами, либо делаем чистый вариант.

Разве при обучении сети неважна глубина цвета? На первый взгляд чистка должна различается  достаточно сильно.
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #18 - 03.07.2018 :: 16:59:08
 
оффтоп:
bolega писал(а) 03.07.2018 :: 16:39:35:
Или в целях рекламы?

Все до единого знакомые спрашивали, когда узнавали что я занимаюсь е-книгами: "сколько зарабатываешь на этом?" Улыбка Попытка объяснить, что это только геморрой и затраты, проваливалась.
и по теме: я точно не буду платить за удаление марашек. Ни в явной, ни в скрытой форме.

сканы:
https://drive.google.com/open?id=1HYQR-OpdT20sY5t-VTsejU24lf-uJoIK
Наверх
« Последняя редакция: 03.07.2018 :: 20:04:20 от AAW »  

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #19 - 03.07.2018 :: 23:29:36
 
mor писал(а) 03.07.2018 :: 16:45:47:
Разве при обучении сети неважна глубина цвета? На первый взгляд чистка должна различается  достаточно сильно.


Важна. Но что стоит, переделать из цветного в серое, а из серого порогом Отцу превратить в бинарное? 2 строки кода. И наоборот из бинарного в цвет, тоже 2 строки кода.
А цветное приятное потому, что можно преобразовать в HSV, а потом канал Hue менять. И из одной картинки получится много разноцветных. Тут же важно, что чем больше примером, тем лучше.
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #20 - 03.07.2018 :: 23:35:07
 
bolega писал(а) 03.07.2018 :: 16:39:35:
T2k

Но главный вопрос: для чего эту тему подняли?


Ну, во-первых, я и сам иногда занимаюсь сканированием книг (и не только книг). Во-вторых, сам же и сталкиваюсь с проблемами при распознавании (хотя, по правде сказать книг с "мурашками" у меня еще не было). Зато были подчеркивания, рукописный текст, мусор от предыдущих страниц. Мне и самому это интересно и нужно. Но сканировать я ленюсь, долго это и монотонно (хоть и сканер современный). Мне интересней код писать. А сканировать есть кому за меня Подмигивание
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #21 - 03.07.2018 :: 23:47:19
 
mor писал(а) 03.07.2018 :: 13:46:20:


А как его скачать? Один спам лезет, вместо файла. Может на гуглдиск?
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Удаление мусора
Ответ #22 - 03.07.2018 :: 23:56:38
 
T2k писал(а) 03.07.2018 :: 23:47:19:
А как его скачать? Один спам лезет, вместо файла. Может на гуглдиск?

не, только обменники без регистрации
http://rgho.st/8shR4GjtQ
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #23 - 03.07.2018 :: 23:59:34
 
Вопрос. Нет ли желающих поучаствовать в разметке данных по этой теме? Я пришлю файлы и нужно будет любым графическим редактором (тот же Paint) удалить "мурашки". Очень аккуратно и не спеша. Не повреждая печатные буквы.
Обучение с учителем, оно такое... Нужно показать нейросети, что правильно, а что не очень.

Далее. С разметкой, судя по всему, мы застрянем надолго. Поэтому большая просьба, если вы встретите сканы с "мурашками", то скидывайте их сюда. Они пригодятся. Мы на них будем тестить или возьмем некоторые для обучения, если там окажутся какие-то эксклюзивные шрифты.

Если найдется книга с "мурашками" и будет под рукой сканер, то не поленитесь сделать несколько сканов с разным разрешением/ в разных цветах. Это тоже очень пригодится.
Наверх
 
 
IP записан
 
mor
Патриарх
*****
Вне Форума



Сообщений: 1768
Пол: male
Re: Удаление мусора
Ответ #24 - 04.07.2018 :: 00:21:19
 
обновил архив - там три варианта - grayscale/bw/ bw чищеный (но изменен размер страницы)
http://rgho.st/64fn6YCDd

в таком виде подойдет?
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #25 - 04.07.2018 :: 00:44:18
 
mor писал(а) 03.07.2018 :: 23:56:38:
не, только обменники без регистрации
http://rgho.st/8shR4GjtQ


Скачал, посмотрел. Ну и где там мурашки? Это обычный мусор с предыдущей страницы. Вроде, нормально чистит.
...


...
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
Вне Форума


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Удаление мусора
Ответ #26 - 04.07.2018 :: 03:43:17
 
T2k писал(а) 03.07.2018 :: 23:59:34:
Нет ли желающих поучаствовать в разметке данных по этой теме?

Вы уж напишите наконец, что желающие получат взамен, и когда. А то вспоминается Матроскин, "совместный труд для моей пользы, он объединяет". Весовые коэффициенты в сети нарабатываются в каком-то тёмном месте с неясными перспективами. Нафиг мне туда вкладываться.
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
nbl
Гуру
****
Вне Форума



Сообщений: 502
Кузбасс
Пол: male
Re: Удаление мусора
Ответ #27 - 04.07.2018 :: 06:43:51
 
Я, наверное, напишу глупость, но попробую изложить свои мысли. На мой взгляд, алгоритм должен самообучаться и самонастраиваться, причем для каждой книги каждый раз заново.

1. Нейросеть сканирует всю книгу и выделяет отдельные элементы.
2. Сильно схожие элементы она объединяет в один с подсчетом количества объединенных элементов.
3. Элементы сортируются по вот этому количеству в сторону уменьшения.
4. После сортировки в первых позициях будут, скорее всего, правильные буквы. Можно считать, что это будет эталонный алфавит для шрифтов конкретной книги. В конце таблицы будут всякие единичные марашки, а в середине будут искажённые марашками буквы.
5. Далее алгоритм сопоставляет буквы, искажённые марашками с эталоным алфавитом и заменяет искаженную букву на эталонную.
6. Марашки из конца таблицы просто вычищаются.

Возможно, на этапе выявления эталонных букв и букв, искаженных марашками, целесообразно продключить технологии OCR.
Свои навороты потребуются для таблиц, формул и графиков.

На выходе должно получиться две книги:
1. Вычищенная книга
2. Книга с разницей между исходной и вычишенной книгами, чтобы проконтролировать, что не выбросили ничего существенного.
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #28 - 04.07.2018 :: 10:21:12
 
AAW писал(а) 04.07.2018 :: 03:43:17:
Вы уж напишите наконец, что желающие получат взамен, и когда. А то вспоминается Матроскин, "совместный труд для моей пользы, он объединяет". Весовые коэффициенты в сети нарабатываются в каком-то тёмном месте с неясными перспективами. Нафиг мне туда вкладываться.


Я могу прямо сейчас выложить исходник. Он будет статичен для любых задач: мурашек, мусора и для любой другой сегментации. Но, думаю, что пользоваться этим смогут единицы. Причина в том, что нейронные сети разрабатывают на скриптовом языке (Python). Нужно будет уметь его установить, подключить нужные библиотеки и запустить скрипт. Ну и смотреть нужно в сторону GPU, т.к. на CPU будет медленно.

А вообще, похоже, на деление шкуры неубитого медведя. Еще, ровным счетом, ничего не сделано. Еще неизвестно, насколько хорошо эта задача будет решаться нейросетью. Но уже делим...  Плачущий

P.S. Лично мне интересна сама задача. У меня нет коммерческого интереса к ней.
Наверх
 
 
IP записан
 
T2k
Новичок
*
Вне Форума


Всем привет!

Сообщений: 19
Ukraine
Пол: male
Re: Удаление мусора
Ответ #29 - 04.07.2018 :: 10:32:53
 
Если задача действительно будет хорошо решаться и не только эта (подчеркивания, мелкий мусор, рукописный текст). Вот тогда можно действительно думать о неком web-сервисе (сайте), где любой желающий сможет загрузить свои файлы и получить новые.  Но это дорого: хостинг, машина с GPU на хостинге, привлечение web-разработчика. Многие из вас захотят вложиться? Не уверен.
Наверх
 
 
IP записан
 
Страниц: 1 2 
Послать Тему Печать