Если мы вернемся к первоначальной публикации [ Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011) ], авторы определяют правило "1-стандартная ошибка", чтобы определить оптимальное число кластеров как наименьшее k с
, где s_k - стандартная ошибка с поправкой на симуляцию MC
для B копии выборок MC, взятых из эталонного распределения.
В последнем уравнении член с квадратным корнем позволяет оценить коррекцию стандартного отклонения, обусловленную количеством выборок MC, иочевидно, что мы имеем
Например, для B = 10
стандартное отклонение s_k увеличивается на 5% из-заНеопределенность выборки MC.Если вы выберете B = 100
, увеличение составит 0,5%.
Я полагаю, что на практике B = 10
, вероятно, будет достаточно для многих приложений.Но это требует некоторой оценки методом проб и ошибок статистики разрыва и ее стандартного отклонения на основе ваших фактических данных и лежащей в их основе структуры кластера (например, количества хорошо разделенных и менее разделенных кластеров).
Несколько полезных ссылок (в произвольном порядке)
Перекрестная проверка: как следует интерпретировать статистику GAP
Лаборатория наук о данных: поискK в кластеризации K-средних
Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011)