Определение количества кластеров для набора данных kdd99 с использованием k-средних - PullRequest
0 голосов
/ 21 мая 2019

Какое общее правило для числа k при выполнении k-средних для набора данных KDD99? Три разные статьи, которые я прочитал, имеют три совершенно разные k (25, 20 и 5). Я хотел бы знать общее мнение по этому поводу, например, каков должен быть диапазон k e.t.c?

Спасибо

1 Ответ

0 голосов
/ 21 мая 2019

Алгоритм кластеризации K-средних используется для поиска групп, которые не были явно помечены в данных.В общем, нет способа определения точного значения для K, но для его определения можно использовать оценочный подход.

  1. Чтобы найти K, возьмите среднее расстояние между точками данных и ихкластерный центроид.

  2. Метод локтя и метод ядра работают более точно, но количество кластеров может зависеть от вашей проблемы.(Рекомендуется) И один из быстрых подходов: - Возьмите квадратный корень из числа точек данных, разделенного на два, и установите его как число кластеров.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...