Поиск программного обеспечения для добычи / извлечения текста с интуитивно понятным, современным пользовательским интерфейсом - PullRequest
0 голосов
/ 01 мая 2018

Я исследую различные продукты для своей организации. Мы ищем решение, которое заменит наше текущее программное обеспечение для анализа текста - DataWatch Monarch. Нам нужно программное обеспечение определенного типа, которое сможет извлекать только соответствующие данные из отчетов PDF и подготавливать их для хранения в базе данных.

DataWatch создает узкое место для нашей организации из-за кривой обучения и ограничений. Я начал пытаться делать это, просто программируя на R, однако нам нужен более упорядоченный подход.

Если вам известно о каком-либо простом в использовании, высокоэффективном программном обеспечении для анализа текста или программном обеспечении для извлечения текста отчета, пожалуйста, поделитесь им. Я буду изучать Scribe Software, SiMX, RapidMiner и некоторые другие.

1 Ответ

0 голосов
/ 07 мая 2018

RapidMiner может без проблем извлекать информацию из PDF-файлов, используя расширение Text Processing. Начните с оператора Read Document и перейдите оттуда.

enter image description here

Сохранение в базе данных также просто - настройте подключение к базе данных в меню «Управление подключениями к базе данных», а затем используйте оператор «Запись базы данных».

enter image description here

enter image description here

...