Поиск связанных текстов (корреляция между двумя текстами) - PullRequest
0 голосов
/ 07 апреля 2011

Я пытаюсь найти похожие статьи в базе данных через корреляцию.

Итак, я разбил текст на массив слов, затем удалил часто используемые слова (статьи, местоимения и т. Д.), Затем сравнил два текста с помощью коэффициента Пирсона. Для одного текста это работает, но для другого это не так хорошо (тексты с большим текстом имеют более высокий коэффициент).

Может кто-нибудь посоветовать хороший метод для поиска похожих текстов?

1 Ответ

0 голосов
/ 30 апреля 2011

Некоторые из упомянутых вами проблем сводятся к нормализации по длине документа и общей частоте слов.Попробуйте tf-idf .

...