Рекомендации для простой поисковой системы для мешка слов? - PullRequest
4 голосов
/ 22 сентября 2009

Какие-нибудь рекомендации для маленькой, легкой, поисковой машины мешка слов?

У меня есть набор «документов», каждый из которых представляет собой небольшой пакет произвольных слов. Получив новый документ, мне нужно получить список «похожих» документов с указанием их степени схожести. Документы, скорее всего, будут небольшими. Максимум пара абзацев.

  • Стеблирование было бы неплохо, но не обязательно.
  • Расширение слов с помощью сетей слов не требуется.
  • предпочтительно с открытым исходным кодом или бесплатное программное обеспечение, так как это прототип, а не полномасштабный проект.
  • предпочтительна платформа unix / linux.

Я бы использовал его в качестве подкомпонента и ожидал, что он будет только подавать документы с идентификатором, а затем будет выполнять поиск «похожих» документов на тот, который у меня есть в настоящее время.

Ответы [ 4 ]

1 голос
/ 22 сентября 2009

Whoosh - это чистый индексатор / поисковая система Python (без C, без внешней базы данных). Проверьте документацию для получения дополнительной информации. Это поддерживает stemming.

Я опробовал его на XML-дампе экземпляра MediaWiki, и, похоже, он работал очень хорошо!

0 голосов
/ 22 сентября 2009

Интересно про MongoDB http://www.mongodb.org/display/DOCS/Home

Похоже, мне нужен полнотекстовый поиск ... и иметь дополнительные поля для поиска может быть удобно.

0 голосов
/ 22 сентября 2009

Я думаю, что Lucene - вариант. Это должно позволить вам создать собственную систему поиска слов.

0 голосов
/ 22 сентября 2009

Solr или Sphinx . Они не совсем легкие, но я бы не стал рекомендовать что-то меньшее, если проект окажется успешным и его нужно будет увеличить, переключение поисковой системы может быть болезненным.

...