Кто-нибудь может указать мне на алгоритм релевантности контента? - PullRequest
2 голосов
/ 22 октября 2010

На мой стол поступил новый проект с некоторыми интересными требованиями. Мне нужно разработать каталог предприятий с возможностью поиска, с акцентом на предоставление релевантных результатов на основе произвольных поисковых запросов. Бизнес может быть любой ниши; нет ни одной области, которая более представлена, чем другая.

При поиске таких вещей, как «алгоритм поиска» или «алгоритм релевантности контента», все, что я получаю, это ссылки на «Мистический алгоритм старых богов» Google и фирмы SEO.

Имеет ли значение релевантности полнотекстовой функции MySQL Match() то, что требуется для выполнения задачи? Я никогда не использовал это, но я определенно собираюсь сделать некоторое тестирование. Кроме того, поскольку это будет в значительной степени отредактированный человеком каталог, я могу предположить, что мы можем добавить взвешенные факторы, такие как теги и категории. Что было бы хорошим способом объединить эти факторы с Match() релевантностью MySQL?

Я также открыт для идей, которые здесь не обсуждались.

Ответы [ 3 ]

2 голосов
/ 23 октября 2010

Для примера поиска информации на основе методов поиска TF-IDF или BM25 .

Для методов, основанных на машинном обучении, ищите RankNet и его варианты из MSR.

1 голос
/ 22 октября 2010

Если у вас есть данные, отредактированные вручную, взгляните на Текстовый поиск Oracle .В одном из моих предыдущих проектов у нас были хорошие результаты.

Я не принимал непосредственного участия в настройках базы данных, но я знаю, что результаты были очень положительными.(До этого у них был только поиск по ключевым словам).

0 голосов
/ 27 октября 2010

Используйте поисковую систему, например Solr , для индексации данных. Вы все еще можете использовать MySql для хранения данных, но для поиска используйте поисковую систему.

...