Алгоритм группировки по сходству текста - PullRequest
1 голос
/ 23 апреля 2020

Итак, я работаю над проектом, основанным на алгоритме группировки Чали в его исследовательской работе «Кластеризация документов с помощью алгоритмов группировки и объединения».

Я попал в раздел 4.1. Я пытаюсь понять в контексте поиска статей об одной и той же топике c, что имеется в виду под перекрывающимися кластерами?

Я определил степень сходства косинусов между статьями. например,

Так, скажем, статья x является опекунской статьей

{

статья 1 - косинусный счет статьи 0,1 (без порога) по сравнению со статьей x

статья 2 - cnn артикль косинуса 0,8 косинус (вставленный в кластер с высоким порогом) по сравнению со статьей x

статья 3 - косинус артикля косинус 0,5 балл (вставленный в кластер с низким порогом) по сравнению со статьей x

}

Мой вопрос: правильно ли я идентифицировал кластеры? Могу ли я, например, смешать истории других издателей в этот кластер?

И когда в статье говорится: «Если не более двух текстов накладываются на конечные кластеры, тогда мы принимаем эту группу в качестве окончательного кластера». Интерпретировать это также очень сложно для меня, поскольку, как я уже сказал, я не уверен, что означает «перекрытие».

Спасибо за помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...