Как определить, что такое кластер? - PullRequest
0 голосов
/ 19 апреля 2019

У меня есть твиты, полученные с помощью API Twitter, и мне нужно сгруппировать твиты по 2 категориям. Для группировки я использовал doc2vec для представления твитов в числовой форме, а затем выполнил кластеризацию алгоритма DBSCAN. Но как узнать, к какой категории относится кластер? Мой вывод - просто твиты, назначенные на разные кластеры.

Например, мне нужно знать, какой твит указывает потребности людей , а какие твиты указывают, что люди могут предложить .

Как узнать, в каком кластере есть твиты? Спасибо!

1 Ответ

0 голосов
/ 19 апреля 2019

Вероятно, ни один кластер не является ни одной из этих двух вещей.

Кластеризация не контролируется. Вы не можете контролировать то, что он находит. Это могут быть твиты, содержащие слово f ... word против твитов, которые этого не делают.

Если вам нужно что-то конкретное, такое как «потребности» и «предложения», тогда вам абсолютно необходимо нужно для обучения контролируемого алгоритма из помеченных данных.

...