Семантический анализ текста - PullRequest
1 голос
/ 27 декабря 2011

Какие инструменты вы бы порекомендовали изучить для семантического анализа текста?

Вот моя проблема: у меня есть набор слов (ключевые слова, теги).

Мне нужно обработать предложения, введенные пользователями и выяснить, близки ли они семантически к словам в моем корпусе.

Любые предложения (книги или актуальные наборы инструментов / API) приветствуются.

С уважением,

Ответы [ 3 ]

2 голосов
/ 27 декабря 2011

Если вы рассматриваете свой корпус как онтологию, Apache Stanbol - http://incubator.apache.org/stanbol/ - может быть полезен.Он использует dbpedia в качестве онтологии по умолчанию при анализе текста.Хотя он является инкубационным, компонент-энхансер достаточно хорош для принятия.Итак, вы можете попробовать.

1 голос
/ 27 декабря 2011

Вы можете попробовать некоторые измерения подобия WordNet. Тед Педерсен имеет компиляцию этих метрик в WordNet :: Similarity , с которой вы можете поэкспериментировать и изучить. Существуют аналогичные реализации на других языках (например, Java).

...