Метод, который вы используете, будет зависеть от распределения подсчетов для каждого человека.Я догадываюсь, что они не будут распределяться нормально, а это означает, что некоторые из стандартных подходов к продольным данным могут быть неуместны - особенно для мелкого, неизвестного генерального директора, которого вы упоминаете, у которого будут данные, которые очень не-последовательный.
Я действительно недостаточно разбираюсь в продольных методах, чтобы дать вам твердый ответ здесь , но вот что я, вероятно, сделал бы, если бы вы заперли меня в комнатечтобы реализовать это прямо сейчас:
Выкопать кучу прошлых данных.Трудно сказать, сколько вам нужно, но я бы в основном пошел, пока это не станет вычислительно безумным или график не станет нереальным (не ожидая ссылок на Стива Джобса из 1930-х годов).
В процессе подготовкидля создания имитируемого «распределения вероятностей» (я здесь использую термины в общих чертах), более свежие данные должны быть взвешены больше, чем прошлые данные - например, через тысячу лет, услышав одно упоминание (этого) Стива Джобса, возможно,можно считать заслуживающим внимания событием, поэтому вы не хотели бы использовать ожидаемые результаты с сегодняшнего дня (скользящее среднее значение Энди использует тот же принцип).Для каждого счета (дня) в вашей базе данных создайте вероятность выборки, которая уменьшается со временем.Вчера наиболее релевантные данные и должны часто отбираться;30 лет назад не следует.
Выборка из этого набора данных с использованием весов и с заменой (т. Е. Один и тот же элемент данных можно отбирать более одного раза).Сколько раздач вы делаете, зависит от данных, сколько человек вы отслеживаете, насколько хорошо ваше оборудование и т. Д. Чем больше, тем лучше.
Сравните фактическое количество историй длядень, о котором идет речь в этом распределении.Какой процент от смоделированных значений лежит выше вашего реального значения?Это примерно (не дай бог ни один экономист на это посмотреть) вероятность того, что ваш реальный счет или более высокий показатель произойдет в этот день.Теперь вы решаете, что уместно - 5% - это норма, но это произвольная, глупая норма.Просто просмотрите свои результаты на некоторое время и посмотрите, что кажется вам подходящим.Конец.
Вот что отстой в этом методе: в нем нет тенденции.Если у Стива Джобса было 15 000 недель назад, 2000 три дня назад и 300 вчера, то есть явная тенденция к снижению.Но описанный выше метод может объяснить это только путем уменьшения весовых коэффициентов для более старых данных;у него нет возможности проецировать эту тенденцию вперед.Предполагается, что процесс в основном стационарный - что с течением времени не происходит никаких реальных изменений, только более и менее вероятные события из того же случайного процесса.
В любом случае, если у вас есть терпениеи сила воли, проверьте некоторые реальные статистические данные.Например, вы можете посмотреть на многоуровневые модели (каждый день - это повторяемая мера, вложенная в человека).Просто остерегайтесь ваших параметрических предположений ... количество упоминаний, особенно на малом конце, не будет нормальным.Если бы они соответствовали параметрическому распределению вообще, это было бы в семействе Пуассона: сам Пуассон (удачи), чрезмерно рассеянный Пуассон (он же отрицательный бином) или Пуассон с нулевым раздувом (вполне вероятно, для вашей мелкой мальчишки, нетшанс для Стива).
Удивительный вопрос, во всяком случае.Поддержите статистический сайт StackExchange , и как только он будет запущен, вы сможете получить гораздо лучший ответ, чем этот.