Существует ли какая-либо неконтролируемая техника кластеризации, которая может идентифицировать сами кластеры номеров? - PullRequest
0 голосов
/ 20 сентября 2018

Я проверил кластеризацию без присмотра в gensim, fasttext, sklearn, но не нашел документации, в которой я могу кластеризовать свои текстовые данные с помощью обучения без контроля, не упоминая номера кластеров, которые нужно идентифицировать

, например, в кластере sklearn KMneans

km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100)

Где я должен предоставить n_clusters.

В моем случае у меня есть текст, и он должен автоматически определять номера кластеров в нем и кластеризовать текст.Любая ссылочная статья или ссылка высоко ценится.

1 Ответ

0 голосов
/ 20 сентября 2018

DBSCAN - это метод кластеризации на основе плотности, при котором нам не нужно заранее указывать количество кластеров.

sklearn реализация: http://scikit -learn.org / stable / modules / generate / sklearn.cluster.DBSCAN.html

Вот хорошее руководство, которое дает интуитивное понимание DBSCAN: http://mccormickml.com/2016/11/08/dbscan-clustering/

Из приведенного выше урока я извлек следующие сведения, которые могут быть вам полезны.

k-означает, что необходимо указать количество кластеров 'k'.DBSCAN не делает этого, но требует указания двух параметров, которые влияют на решение о том, следует ли связывать две соседние точки в одном кластере.

Эти два параметра являются порогом расстояния, ε (epsilon) и «MinPts» (минимальное количество баллов), которые будут объяснены.

Существуют и другие методы (перейдите по ссылке, приведенной в комментариях), однако, DBSCAN популярный выбор.

...