Используйте NLTK , в частности главу 7 «Извлечение информации».
Вы говорите, что хотите извлечь смысл, и есть модули для семантического анализа, но я думаю, что IE - это все, что вам нужно - и, честно говоря, одна из немногих областей компьютеров НЛП может справиться прямо сейчас.
См. Разделы 7.5 и 7.6, посвященные подтемам распознавания именованных сущностей (чтобы разбить на категории и классифицировать Мэнни Рамереза как личность, Доджерс как спортивную организацию и Хьюстон Астрос как другую спортивную организацию или что угодно, подходящее вашему домену) и Извлечение отношений. Существует блок NER, который вы можете подключить после установки NLTK. Из своих примеров извлекаем геополитическую единицу (ГПЕ) и человека:
>>> sent = nltk.corpus.treebank.tagged_sents()[22]
>>> print nltk.ne_chunk(sent)
(S
The/DT
(GPE U.S./NNP)
is/VBZ
one/CD
...
according/VBG
to/TO
(PERSON Brooke/NNP T./NNP Mossman/NNP)
...)
Обратите внимание, что вам по-прежнему необходимо знать токенизацию и теги, как обсуждалось в предыдущих главах, чтобы получить текст в правильном формате для этих задач IE.