Рекомендуемое количество смоделированных эталонных наборов данных для статистики разрыва - PullRequest
0 голосов
/ 26 июня 2018

Существует ли рекомендуемое количество смоделированных наборов данных (B) из эталонного распределения при вычислении статистики разрыва Тибширани?В = 50?В = 100?В = 500?B = 1000?Если да, то есть хорошая ссылка, в которой это упоминается?

1 Ответ

0 голосов
/ 26 июня 2018

Если мы вернемся к первоначальной публикации [ Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011) ], авторы определяют правило "1-стандартная ошибка", чтобы определить оптимальное число кластеров как наименьшее k с

enter image description here

, где s_k - стандартная ошибка с поправкой на симуляцию MC

enter image description here

для B копии выборок MC, взятых из эталонного распределения.

В последнем уравнении член с квадратным корнем позволяет оценить коррекцию стандартного отклонения, обусловленную количеством выборок MC, иочевидно, что мы имеем

enter image description here

Например, для B = 10 стандартное отклонение s_k увеличивается на 5% из-заНеопределенность выборки MC.Если вы выберете B = 100, увеличение составит 0,5%.

Я полагаю, что на практике B = 10, вероятно, будет достаточно для многих приложений.Но это требует некоторой оценки методом проб и ошибок статистики разрыва и ее стандартного отклонения на основе ваших фактических данных и лежащей в их основе структуры кластера (например, количества хорошо разделенных и менее разделенных кластеров).

Несколько полезных ссылок (в произвольном порядке)

Перекрестная проверка: как следует интерпретировать статистику GAP

Лаборатория наук о данных: поискK в кластеризации K-средних

Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011)

...