Предположим, что у меня есть набор данных S, который содержит время обслуживания для различных заданий, например S={t1,t2,t3,...,tn}
, где ti - время обслуживания для i-го задания;и п общее количество в моем наборе данных.Этот S является только выборкой из популяции.п здесь 300к.Я хотел бы изучить влияние длительного срока службы, так как некоторые работы занимают очень много времени, а некоторые нет.Моя интуиция состоит в том, чтобы изучить это влияние на основе данных, собранных из реальной системы.Исследуемая система имеет тысячи миллионов рабочих мест, и это число увеличивается на 100 новых рабочих мест каждые несколько секунд.Кроме того, время обслуживания измеряется путем сравнения заданий на локальном компьютере.Таким образом, расширение вашего набора данных практически невозможно.Таким образом, я решил случайным образом собрать 300 тыс.
Я провожу эксперименты по моделированию, в которых мне нужно создать большое количество заданий с их временем обслуживания (скажем, миллионами), а затем выполнить некоторые другие вычисления.
Как использовать S в качестве населения в моей симуляции, я наткнулся на следующее:
1 - использовать сам S.Я мог бы использовать начальную загрузку «выборка с заменой» или «выборка без замены».
2 - подогнать теоретическую модель распределения к S, а затем извлечь из нее.
Я прав?какой подход лучше (плюсы и минусы)?первый подход кажется простым, просто выбирая случайное время обслуживания из S каждый раз?это надежно?Любое предложение приветствуется, так как я не получаю статистику.