Семантический анализ с использованием Solr - PullRequest
6 голосов
/ 21 июля 2009

Я думаю о добавлении семантического анализа в мою установку Solr, но я точно не знаю, с чего начать.

По сути, я бы хотел, чтобы Solr мог найти "похожие" слова (взятые из основной части проиндексированных документов). Например, если я ищу «музыку», я должен иметь возможность запросить семантический движок и получить «рок», «поп» и т. Д. (Конечно, если эти слова появились рядом с музыкой в ​​некоторых из проиндексированных документов).

Я нашел этот проект, но я не знаю, является ли это правильным местом для начала: http://code.google.com/p/semanticvectors/

Ответы [ 2 ]

4 голосов
/ 21 июля 2009

Семантическая индексация - хорошее место для начала. Однако, по моему опыту, такие технологии на практике работают не так хорошо. Вы часто получаете очень странные результаты. Кроме того, благодаря Google люди ожидают, что поиск по ключевым словам должен вести себя - т. Е. Ваш поисковый запрос должен появиться в соответствующем документе.

3 голосов
/ 21 июля 2009

Вы можете использовать пакет Lucene Wordnet для поиска синонимов.

Оптимизация поиска в Lucene и Solr дает другие способы расширения запросов.

...