Как выбрать num_resamples в SALib для дельта-независимой меры delta.analyze? - PullRequest
0 голосов
/ 19 октября 2019

Я пытаюсь использовать delta.analyze для анализа чувствительности на основе выборки из латинского гиперкуба для анализа влияния входных параметров на моделирование.

SALib предоставляет функцию:

SALib.analyze.delta.analyze(problem, X, Y, num_resamples=10, 
conf_level=0.95, print_to_console=False, seed=None) 

Выходы дельта и S1, которые я могу использовать для определения степени влияния каждого параметра. Я не до конца понял их разницу, просто что дельта - это смещение распределения, а S1 - смещение дисперсии.

Теперь мне интересно, как установить:

num_resamples

Что означает этот параметрделать? Я не мог следовать объяснениям в:

[1] Borgonovo, E. (2007). "A new uncertainty importance measure."
   Reliability Engineering & System Safety, 92(6):771-784,
   doi:10.1016/j.ress.2006.04.015.

[2] Plischke, E., E. Borgonovo, and C. L. Smith (2013). "Global
   sensitivity measures from given data." European Journal of
   Operational Research, 226(3):536-550, doi:10.1016/j.ejor.2012.11.047.

Может кто-нибудь дать более простое, более практичное объяснение?

================================================================

То, что я нашел до сих пор:

Взятие большего количества образцов не изменило значения _conf.

Значения _conf находятся в диапазоне [0,0.05]

Изменение уровня conf_level не изменило интервал

Если я возьму num_resamples очень маленьким, например, 1, значения _conf будут NaN

1 Ответ

0 голосов
/ 28 октября 2019

После прочтения статей более подробно, я думаю, что я нашел решение.

Параметр SALib num_resamples основан на уменьшающей смещение начальной загрузке оценки. B самозагрузочные копии (num_resamples) заданных выходных данных Y. При начальной загрузке реплика получается путем извлечения выборки из n реализаций из n доступных наблюдений с заменой.

Начальная загрузка: статистика исходной выборки можетбыть аппроксимированными, взяв среднее по большому количеству небольших образцов одного размера (с заменой) из одного исходного образца. Эта статистика вычисляется для каждой повторной выборки, и, таким образом, аппроксимация улучшается с увеличением количества повторных выборок. Это работает, потому что количество начальной загрузки может быть выражено как ожидание, зависящее от выборки. После большого количества итераций статистика начальной загрузки компилируется в один дистрибутив начальной загрузки. Таким образом, получается значение начальной загрузки и соответствующий доверительный интервал.

Однако выбор количества повторных выборок зависит от проблемы. Есть несколько исследований на эту тему. Я просто сделал то, что Stata рекомендует здесь: https://www.stata.com/support/faqs/statistics/bootstrapped-samples-guidelines/

  1. "Выберите большое, но допустимое количество повторений. Получите оценки начальной загрузки.
  2. Измените начальное число случайных чисел. ПолучитеСнова загрузите оценки, используя то же количество копий.
  3. Значительно ли меняются результаты? Если это так, первое выбранное вами число было слишком маленьким. Попробуйте большее число. Если результаты достаточно похожи, возможно, у вас естьдостаточно большое число. Конечно, вам, вероятно, следует выполнить шаг 2 еще несколько раз, но я редко делаю. "
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...