Итак, я работаю над проектом, основанным на алгоритме группировки Чали в его исследовательской работе «Кластеризация документов с помощью алгоритмов группировки и объединения».
Я попал в раздел 4.1. Я пытаюсь понять в контексте поиска статей об одной и той же топике c, что имеется в виду под перекрывающимися кластерами?
Я определил степень сходства косинусов между статьями. например,
Так, скажем, статья x является опекунской статьей
{
статья 1 - косинусный счет статьи 0,1 (без порога) по сравнению со статьей x
статья 2 - cnn артикль косинуса 0,8 косинус (вставленный в кластер с высоким порогом) по сравнению со статьей x
статья 3 - косинус артикля косинус 0,5 балл (вставленный в кластер с низким порогом) по сравнению со статьей x
}
Мой вопрос: правильно ли я идентифицировал кластеры? Могу ли я, например, смешать истории других издателей в этот кластер?
И когда в статье говорится: «Если не более двух текстов накладываются на конечные кластеры, тогда мы принимаем эту группу в качестве окончательного кластера». Интерпретировать это также очень сложно для меня, поскольку, как я уже сказал, я не уверен, что означает «перекрытие».
Спасибо за помощь!