Question

Существует ли рекомендуемое количество смоделированных наборов данных (B) из эталонного распределения при вычислении статистики разрыва Тибширани?В = 50?В = 100?В = 500?B = 1000?Если да, то есть хорошая ссылка, в которой это упоминается?

Maurits Evers · Answer 1 · 26 июня 2018

Если мы вернемся к первоначальной публикации [ Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011) ], авторы определяют правило "1-стандартная ошибка", чтобы определить оптимальное число кластеров как наименьшее k с

, где s_k - стандартная ошибка с поправкой на симуляцию MC

для B копии выборок MC, взятых из эталонного распределения.

В последнем уравнении член с квадратным корнем позволяет оценить коррекцию стандартного отклонения, обусловленную количеством выборок MC, иочевидно, что мы имеем

Например, для B = 10 стандартное отклонение s_k увеличивается на 5% из-заНеопределенность выборки MC.Если вы выберете B = 100, увеличение составит 0,5%.

Я полагаю, что на практике B = 10, вероятно, будет достаточно для многих приложений.Но это требует некоторой оценки методом проб и ошибок статистики разрыва и ее стандартного отклонения на основе ваших фактических данных и лежащей в их основе структуры кластера (например, количества хорошо разделенных и менее разделенных кластеров).

Несколько полезных ссылок (в произвольном порядке)

Перекрестная проверка: как следует интерпретировать статистику GAP

Лаборатория наук о данных: поискK в кластеризации K-средних

Tibshirani, Walther and Hastie, JR Statist.Soc.B 63, 411 (2011)

Рекомендуемое количество смоделированных эталонных наборов данных для статистики разрыва

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Рекомендуемое количество смоделированных эталонных наборов данных для статистики разрыва

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы