каков формат ярлыков кластера sklearn? - PullRequest
0 голосов
/ 10 января 2020

Я использую sklearn для кластеризации некоторых строк текста, но пытаюсь понять формат возвращаемых меток кластера. Это выглядит так:

km_model.labels_
array([ 5, 35,  1, 29, 49,  2,  6, 28,  5,  4,  4, 19, 40, 52,  6, 20,  4,\n       40, 40,  7, 10, 13, 14,  4, 10, 29, 14, 22, 24, 13, 24,  5,  4, 21,\n ... 

Так что это похоже на массив, но есть элементы \n для разделения кластеров? Это действительно формат? Это какой-то тип ярлыка для упаковки матриц в SKLearn? Почему они не возвращают двумерный массив меток, например, один список меток на кластер?

После этого, как лучше всего перебирать данные этого типа и группировать метки по кластеру?

1 Ответ

0 голосов
/ 10 января 2020

Ваши кластеры - это числовые значения, индекс каждой метки соответствует индексу образцов, которые вы передали в вашу модель. Я подозреваю, что \n является результатом того, какую IDE вы используете, прочитав этот вывод.

...