Question

Я пытаюсь найти похожие статьи в базе данных через корреляцию.

Итак, я разбил текст на массив слов, затем удалил часто используемые слова (статьи, местоимения и т. Д.), Затем сравнил два текста с помощью коэффициента Пирсона. Для одного текста это работает, но для другого это не так хорошо (тексты с большим текстом имеют более высокий коэффициент).

Может кто-нибудь посоветовать хороший метод для поиска похожих текстов?

highBandWidth · Answer 1 · 30 апреля 2011

Некоторые из упомянутых вами проблем сводятся к нормализации по длине документа и общей частоте слов.Попробуйте tf-idf .

Поиск связанных текстов (корреляция между двумя текстами)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск связанных текстов (корреляция между двумя текстами)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы