Хорошо. Есть целые лаборатории информатики, посвященные такого рода вещам!
Может быть, начать с поиска инструмента под названием RapidMiner
Также вот несколько заголовков исследовательских работ, которые у меня есть в формате PDF (на которые у меня больше нет ссылок, к сожалению):
1. Автоматизированное понимание финансовой отчетности
Использование нейронных сетей и семантических грамматик
Джеймс Маркович
Dun & Bradstreet, поисковые технологии
Апрель 1995
Электронная почта: jsmarkovitch@yahoo.com
Copyright 1995 Джеймс Маркович
2. Интегрированный подход для автоматического извлечения семантической структуры в изображениях документов
Маргарита Берарди, Микеле Лапи и Донато Малерба
Dipartimento di Informatica - Студия ди Бари
через Орабона 4 - 70126 Бари
{Берарди, Lapi, Malerba} @ di.uniba.it
Я думаю, что первый будет наибольший интерес с точки зрения того, что вы после. Не совсем уверен, сколько это будет стоить:)