OCR форумы Добро пожаловать, Гость. Пожалуйста, выберите Вход или Регистрация
Всем привет!
Hi all!
 
  ГлавнаяСправкаПоискВходРегистрация Администратор Библиотека  
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать
Как извлечь txt из файлов? (Прочитано 6129 раз)
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 75
Как извлечь txt из файлов?
16.02.2017 :: 18:33:30
 
Нужно извлечь текст из нескольких тысяч файлов разных форматов (в отдельные txt файлы). Раньше извлекал Balabolka. При этом если не распознан, то создавался файл в 1 килобайт. Но если файлов больше 350, эта утитита не захотела обрабатывать большой объём. Выходной формат нужен ANSI. Хочу проиндексировать затем локально, чтобы найти некоторую техническую информацию.
Наверх
 
 
IP записан
 
balik2
Активист
***
Вне Форума


Всем привет!

Сообщений: 226
Пол: male
Re: Как извлечь txt из файлов?
Ответ #1 - 17.02.2017 :: 12:23:03
 
установите себе Архивариус 3000
он проиндексирует все документы в тех папках где укажете и можно в программе удобно делать поиск по всему текстовому слою всех докуметов
Наверх
 
 
IP записан
 
AAW
Патриарх
*****
На Форуме


Старую детскую и НП литературу
ничем не заменить

Сообщений: 5428
Екатеринбург
Пол: male
Re: Как извлечь txt из файлов?
Ответ #2 - 17.02.2017 :: 14:17:32
 
помнится, он платный?
Наверх
 

Если не я за себя - то кто за меня? Но если я только за себя - то зачем я нужен? И если не сейчас - то когда? (с) Гиллель, предположительно
155803224  
IP записан
 
balik2
Активист
***
Вне Форума


Всем привет!

Сообщений: 226
Пол: male
Re: Как извлечь txt из файлов?
Ответ #3 - 17.02.2017 :: 15:24:07
 
в теории да, но ключки всегда можна раздобыть на том же руборде Подмигивание
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 75
Re: Как извлечь txt из файлов?
Ответ #4 - 18.02.2017 :: 07:52:29
 
Он мне не подходит или не умею им пользоваться. Пользуюсь Soft Inform Search Descktop (ему надо ). Хотя он тоже глючный и именно такой запрос не может корректно обработать. Напишу используя регулярные выражения. Палочка | значит «ИЛИ»:
рак|опухоль(интервал между словами, не знаю, как регуляркой описать)груди|молочной железы

Интервал между словами - это сколько можно, чтобы других слов попало в промежуток (от и до).

Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 75
Re: Как извлечь txt из файлов?
Ответ #5 - 20.02.2017 :: 08:28:51
 
Написал нужное регулярное выражение для Notepad++ Code:
(\b.*?рак.*?\b|опухол.*?\b|онколог.*?\b)(\s|,\s)(молочн.*?\b|\груд.*?\b) 

. Сейчас буду в DocFetcher пробовать.

Автор Balabolka изготовил новую версию консольной утилиты, которая не держит всё задание в памяти, а обрабатывает поштучно. Буду тестировать.
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 75
Re: Как извлечь txt из файлов?
Ответ #6 - 20.02.2017 :: 19:20:16
 
Протестировал извлекатель текста на большом объёме входных данных. обработало, как надо.
http://www.cross-plus-a.ru/btext.html
Наверх
 
 
IP записан
 
opliaboy
Постоялец
**
Вне Форума


Всем привет!

Сообщений: 75
Re: Как извлечь txt из файлов?
Ответ #7 - 21.02.2017 :: 07:16:39
 
Для Notepad++ подсказали более совершенное регулярное выражение с возможностью выставления количества промежуточных слов:
Code:
(рак|опухол|онколог)\S*\s+(?:\S+\s+){0,4}(молочн|груд)\S* 

Наверх
« Последняя редакция: 21.02.2017 :: 09:03:26 от Вадим »  
 
IP записан
 
Переключение на Главную Страницу Страниц: 1
Послать Тему Печать