Цель состоит в том, чтобы оценить семантическую взаимосвязь между терминами в большом текстовом корпусе, например, «полиция» и «преступность» должны иметь более сильную семантическую взаимосвязь, чем «полиция» и «гора», поскольку они имеют тенденцию сосуществовать в одном и том же контексте.
Простейший подход, о котором я читал, состоит в извлечении IF-IDF информации из корпуса.
Многие люди используют скрытый семантический анализ, чтобы найти семантические корреляции.
Я встречал поисковик Lucene: http://lucene.apache.org/
Как вы думаете, подходит ли это для извлечения IF-IDF?
Что бы вы порекомендовали сделать, что я пытаюсь сделать, как с точки зрения техники, так и с точки зрения программного обеспечения (с предпочтением Java)?
Заранее спасибо!
Mulone