Я пробую разные методы кластеризации для нескольких новостных текстов и пытаюсь найти какой-либо способ найти лучшие термины для каждого кластера для распространения аффилированности sklearns, и я не уверен, возможно ли это вообще.
Для кластеризации k-средних я использую тот же подход, что и здесь: https://scikit -learn.org / 0.19 / auto_examples / text / document_clustering.html Я бы логически хотел использоватьтот же X для распространения сродства, что и для k-средних.
Кто-нибудь знает, как было бы возможно получение подобных результатов с распространением сродства?
Вы можете вычислить среднее значение и проанализировать его так же, как вы делали для k-средних.
Для достижения наилучших результатов вы можете взвесить каждый документ по коэффициенту ответственности, если он выставлен API-интерфейсом sklearn.