lucene / solr удалить общие фразы (стоп-фразы) - PullRequest
1 голос
/ 16 августа 2011

Я хотел бы исключить из поискового запроса слова / фразы, которые не имеют никакого смысла в запросе (мы могли бы назвать их фразами остановки). Пример:

"Как .."

"Где я могу найти .."

«В чем смысл ..»

и т.д.

  1. Где найти / как вычислить список «общих фраз» для английского и французского?

  2. Как реализовать это в Solr (Есть ли что-нибудь более продвинутое, чем функция стоп-слов?)

1 Ответ

1 голос
/ 17 августа 2011

Я думаю, что вы не должны пытаться полностью избавиться от этих фраз, потому что они раскрывают намерения искателя. Вы можете попытаться использовать их, используя систему ответов на вопросы на естественном языке, такую ​​как Ephyra . Есть даже проект , нацеленный на его интеграцию с Lucene. Я не использовал это сам, но, по крайней мере, оценивая это стоит попробовать.

Если вы полны решимости удалить их, то я думаю, что вам нужно написать пользовательский QueryParser , который будет фильтровать запрос, делегируя дальнейшую обработку анализатору по вашему выбору.

...