Получить информацию из разных неструктурированных текстовых файлов - Text Mining? - PullRequest
2 голосов
/ 17 марта 2010

Мне нужна помощь в решении этой проблемы.

У нас есть большое количество документов указанного домена. Эти документы из разных источников, и поэтому их структура также может сильно отличаться. С другой стороны у меня есть таблица с некоторыми указанными полями, где некоторые цифры должны быть заполнены из выписки из документов.

Например:

Компания х имела бизнес-объем 20 миллионов долларов в 2010 году. компания у этого года.

Результат должен выглядеть примерно так

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000  

Не могли бы вы указать мне, пожалуйста, некоторые ссылки или темы, где я могу найти дополнительную информацию о том, как решить такую ​​проблему.

Я знаю, что для этого нет готового решения, но где мне начать искать.

Заранее спасибо.

1 Ответ

2 голосов
/ 17 марта 2010

Хорошо. Есть целые лаборатории информатики, посвященные такого рода вещам! Может быть, начать с поиска инструмента под названием RapidMiner

Также вот несколько заголовков исследовательских работ, которые у меня есть в формате PDF (на которые у меня больше нет ссылок, к сожалению):

1. Автоматизированное понимание финансовой отчетности Использование нейронных сетей и семантических грамматик

Джеймс Маркович Dun & Bradstreet, поисковые технологии Апрель 1995 Электронная почта: jsmarkovitch@yahoo.com Copyright  1995 Джеймс Маркович

2. Интегрированный подход для автоматического извлечения семантической структуры в изображениях документов

Маргарита Берарди, Микеле Лапи и Донато Малерба Dipartimento di Informatica - Студия ди Бари через Орабона 4 - 70126 Бари {Берарди, Lapi, Malerba} @ di.uniba.it

Я думаю, что первый будет наибольший интерес с точки зрения того, что вы после. Не совсем уверен, сколько это будет стоить:)

...