Отфильтровать общие слова для поискового запроса - PullRequest
2 голосов
/ 22 декабря 2008

Есть ли какие-либо простые способы реализовать фильтрацию ввода пользователя (возможно, вопрос) путем извлечения значимых данных в запросе?

Я хочу отфильтровать все шумовые слова, чтобы можно было отправить «чистый» запрос в поисковый API Google.

Ответы [ 4 ]

2 голосов
/ 22 декабря 2008

Хм, разве Google не сделает это за вас? Отправьте все эти грязные, грязные слова в Google, и пусть они очистят их для вас.

1 голос
/ 22 декабря 2008

Джефф говорил о «стоп-словах» в одном из предыдущих подкастов stackoverflow. Вы можете попробовать найти эту фразу в Google. На странице википедии, похоже, есть некоторый обзор и ссылки на опции.

http://en.wikipedia.org/wiki/Stop_words

0 голосов
/ 22 декабря 2008

Я использовал подход «стоп-слова» при реализации базовой поисковой системы, и он работал нормально. Попробуйте список образцов, например, здесь

На основе отзывов ваших пользователей вы можете соответствующим образом изменить список стоп-слов.

0 голосов
/ 22 декабря 2008

Вы можете попробовать удалить X самых распространенных английских слов, но у вас всегда будут проблемы с таким наивным подходом, как этот.

Это потому, что обычные английские слова могут иметь особое значение в области компьютерных наук (или в других областях). Недавний подкаст SO ( # 32 ) упоминает эту самую проблему.

...