Движки рекомендаций полнотекстовых статей с открытым исходным кодом - PullRequest
4 голосов
/ 16 сентября 2008

Мне интересно, есть ли какие-нибудь хорошие алгоритмы рекомендаций .NET, доступные в проектах с открытым исходным кодом, независимо от того, подключены они к поисковой системе или нет. Под рекомендацией я имею в виду то, что принимает полнотекстовую статью и рекомендует другие статьи из ее индекса на основе сходства ключевых слов.

На верхнем уровне есть механизмы классификации документов, такие как автономия; на низкоуровневых фильтрах спама и виджетах "связанных постов" блога. Возможно, сопоставление рекламы и статьи тоже. Я хотел бы включить один в проект, но не могу позволить себе высокий уровень, а нижний конец, похоже, основан на LAMP.

[Извините, один ответ попросил уточнить: в идеале я ищу автономную библиотеку, но я готов адаптировать хороший исходный код по мере необходимости. Конечный результат заключается в том, что мне нужно иметь возможность создать службу C #, которая принимает произвольный объем текста и возвращает список похожих ранее проиндексированных статей. По сути, именно то, что делает StackOverflow, когда вы задаете вопрос!]

Спасибо! Стив

Ответы [ 2 ]

1 голос
/ 23 января 2009

Я думаю, что в StackOverflow они извлекают из текста все распространенные английские слова, а затем сравнивают эти слова с остальными словами других постов, чтобы получить сообщения "Связанные".

0 голосов
/ 16 сентября 2008

Вопрос не очень ясен (алгоритм или библиотека ???), но единственное, что приходит на ум, - это Lucene.NET, портирование популярной библиотеки Lucene на .Net framework. НТН.

...