Есть ли алгоритм для определения соответствия текста теме? - PullRequest
1 голос
/ 16 января 2012

Я хочу знать, что можно использовать для определения релевантности страницы для такой темы, как игры, фильмы и т. Д.

Есть ли какие-либо исследования в этой области или только подсчитывается, сколько раз некоторыепоявляются соответствующие слова?

1 Ответ

5 голосов
/ 16 января 2012

Распространенным выбором является контролируемая классификация документов по характеристикам пакета слов (или пакета n-грамм), предпочтительно с весом tf-idf.

Популярные алгоритмы включают в себя наивные байесовские и (линейные) SVM.

Для этого подхода вам понадобятся помеченные данные обучения, т. Е. Документы с соответствующими темами.

См., Например, Введение в поиск информации , главы 13-15.

...