Question

Какие-нибудь рекомендации для маленькой, легкой, поисковой машины мешка слов?

У меня есть набор «документов», каждый из которых представляет собой небольшой пакет произвольных слов. Получив новый документ, мне нужно получить список «похожих» документов с указанием их степени схожести. Документы, скорее всего, будут небольшими. Максимум пара абзацев.

Стеблирование было бы неплохо, но не обязательно.
Расширение слов с помощью сетей слов не требуется.
предпочтительно с открытым исходным кодом или бесплатное программное обеспечение, так как это прототип, а не полномасштабный проект.
предпочтительна платформа unix / linux.

Я бы использовал его в качестве подкомпонента и ожидал, что он будет только подавать документы с идентификатором, а затем будет выполнять поиск «похожих» документов на тот, который у меня есть в настоящее время.

Steven Kryskalla · Answer 1 · 22 сентября 2009

Whoosh - это чистый индексатор / поисковая система Python (без C, без внешней базы данных). Проверьте документацию для получения дополнительной информации. Это поддерживает stemming.

Я опробовал его на XML-дампе экземпляра MediaWiki, и, похоже, он работал очень хорошо!

ericslaw · Answer 2 · 22 сентября 2009

Интересно про MongoDB http://www.mongodb.org/display/DOCS/Home

Похоже, мне нужен полнотекстовый поиск ... и иметь дополнительные поля для поиска может быть удобно.

Pascal Thivent · Answer 3 · 22 сентября 2009

Я думаю, что Lucene - вариант. Это должно позволить вам создать собственную систему поиска слов.

Mauricio Scheffer · Answer 4 · 22 сентября 2009

Solr или Sphinx . Они не совсем легкие, но я бы не стал рекомендовать что-то меньшее, если проект окажется успешным и его нужно будет увеличить, переключение поисковой системы может быть болезненным.

Рекомендации для простой поисковой системы для мешка слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Рекомендации для простой поисковой системы для мешка слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы