Получение лучших терминов для каждого кластера распространения сродства в scikit-learn - PullRequest
0 голосов
/ 24 января 2019

Я пробую разные методы кластеризации для нескольких новостных текстов и пытаюсь найти какой-либо способ найти лучшие термины для каждого кластера для распространения аффилированности sklearns, и я не уверен, возможно ли это вообще.

Для кластеризации k-средних я использую тот же подход, что и здесь: https://scikit -learn.org / 0.19 / auto_examples / text / document_clustering.html Я бы логически хотел использоватьтот же X для распространения сродства, что и для k-средних.

Кто-нибудь знает, как было бы возможно получение подобных результатов с распространением сродства?

1 Ответ

0 голосов
/ 25 января 2019

Вы можете вычислить среднее значение и проанализировать его так же, как вы делали для k-средних.

Для достижения наилучших результатов вы можете взвесить каждый документ по коэффициенту ответственности, если он выставлен API-интерфейсом sklearn.

...