Как сгенерировать входные параметры для симуляционного исследования, используя собранный набор данных? - PullRequest
0 голосов
/ 03 июля 2019

Предположим, что у меня есть набор данных S, который содержит время обслуживания для различных заданий, например S={t1,t2,t3,...,tn}, где ti - время обслуживания для i-го задания;и п общее количество в моем наборе данных.Этот S является только выборкой из популяции.п здесь 300к.Я хотел бы изучить влияние длительного срока службы, так как некоторые работы занимают очень много времени, а некоторые нет.Моя интуиция состоит в том, чтобы изучить это влияние на основе данных, собранных из реальной системы.Исследуемая система имеет тысячи миллионов рабочих мест, и это число увеличивается на 100 новых рабочих мест каждые несколько секунд.Кроме того, время обслуживания измеряется путем сравнения заданий на локальном компьютере.Таким образом, расширение вашего набора данных практически невозможно.Таким образом, я решил случайным образом собрать 300 тыс.

Я провожу эксперименты по моделированию, в которых мне нужно создать большое количество заданий с их временем обслуживания (скажем, миллионами), а затем выполнить некоторые другие вычисления.

Как использовать S в качестве населения в моей симуляции, я наткнулся на следующее:

1 - использовать сам S.Я мог бы использовать начальную загрузку «выборка с заменой» или «выборка без замены».

2 - подогнать теоретическую модель распределения к S, а затем извлечь из нее.

Я прав?какой подход лучше (плюсы и минусы)?первый подход кажется простым, просто выбирая случайное время обслуживания из S каждый раз?это надежно?Любое предложение приветствуется, так как я не получаю статистику.

1 Ответ

1 голос
/ 03 июля 2019

Цитата из этого урока на Зимней Симуляционной конференции 2007 года:

На первый взгляд, симуляция на основе трассировки кажется привлекательной. То есть где исторические данные используются непосредственно в качестве входных данных. Трудно спорить о достоверности распределений, когда реальные данные из В вашей модели используется реальная система. На практике, однако, это имеет тенденцию быть плохим решением по нескольким причинам. Исторические данные могут быть дорогим или невозможно извлечь. Это, конечно, не будет доступно в неограниченных количествах, что значительно сокращает статистический анализ возможен. Требования к хранению высоки. И последнее, но не По крайней мере, невозможно оценить стратегии «что, если?» или попытаться моделировать предполагаемую систему, то есть ту, которая еще не существует.

  1. Одним из основных применений симуляции является изучение альтернативных конфигураций или политик, и данные трассировки не подходят для этого - они могут только показать вам, как вы работаете в настоящее время. Данные трассировки не могут использоваться для изучения систем, которые находятся на рассмотрении, но еще не существуют.
  2. Bootstrapping повторно пробует ваши существующие данные. Это снимает ограничения по количеству данных, но с потенциальной ценой. Начальная загрузка основывается на предположении, что ваши данные являются представительными и независимыми. Первый может не быть проблемой с 300 тыс. Наблюдений, но часто возникает, когда размер выборки меньше из-за проблем с ценой или доступностью. Последнее имеет большое значение, если ваши данные поступают из временного ряда, в котором наблюдения последовательно коррелированы или неоднородны. В этом случае независимая случайная выборка (а не последовательное воспроизведение) может потерять значительную информацию об изучаемом поведении.
  3. Если требуется последовательное воспроизведение, вы вернетесь к ограничению 300 тыс. Наблюдений, и это может быть не так много данных, как вы думаете для статистических измерений. Оценка дисперсии важна для расчета погрешности для доверительных интервалов, а последовательная корреляция оказывает огромное влияние на дисперсию среднего значения выборки. Получение достоверных оценок доверительных интервалов может занять на несколько порядков больше данных, чем требуется для независимых данных.

Таким образом, для подгонки распределения требуется больше времени, но обычно она более полезна в долгосрочной перспективе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...