Я использую sklearn для кластеризации некоторых строк текста, но пытаюсь понять формат возвращаемых меток кластера. Это выглядит так:
km_model.labels_
array([ 5, 35, 1, 29, 49, 2, 6, 28, 5, 4, 4, 19, 40, 52, 6, 20, 4,\n 40, 40, 7, 10, 13, 14, 4, 10, 29, 14, 22, 24, 13, 24, 5, 4, 21,\n ...
Так что это похоже на массив, но есть элементы \n
для разделения кластеров? Это действительно формат? Это какой-то тип ярлыка для упаковки матриц в SKLearn? Почему они не возвращают двумерный массив меток, например, один список меток на кластер?
После этого, как лучше всего перебирать данные этого типа и группировать метки по кластеру?