Python / SQL / Excel У меня есть 12 наборов данных, и я хочу объединить их в один репрезентативный набор - PullRequest
0 голосов
/ 14 сентября 2018

Я пытаюсь создать прогнозную кривую, используя 12 различных наборов эмпирических данных.По сути, я хочу написать функцию, которая передает 2 переменные (количество приложений, дней) и генерирует прогнозную кривую на основе 12 наборов данных, которые у меня есть.Все наборы данных имеют 60 дней и имеют количество заявок от 500 до 100 000.

Я не совсем уверен, какой будет лучший подход, я подумал, может быть, принимая средний процент от общего числа заявок в день(например: в первый день в среднем 3% от общего числа поданных заявок, в среднем на 10-й день - 10% и т. д.) было бы неплохо начать, но я не уверен, что это лучший подход.

В моем распоряжении Python, SQL и Excel, но я не обязательно ищу конкретное решение, а просто общее предложение о подходе.Любая помощь будет высоко ценится!

1 Ответ

0 голосов
/ 14 сентября 2018

Звучит так, как будто вы хотите разбить все на (60 * 12) рядов с 3 столбцами: один записывает номер приложения, другой записывает время, а другой записывает местоположение.Тогда модель может показывать каждое местоположение как предиктор, и вы можете сгенерировать 12 симулированных прогнозов с неопределенностью.Затем, чтобы получить одно общее предсказание, усредните эти предсказания вместо этого - загрузитесь, а затем объедините прогнозы, если вам интересно.Время модели, какое вы хотите - авторегрессия, фильтр Калмана, ближайший сосед (хотя, вероятно, для этого недостаточно данных).Только не выдумывайте каждую временную точку индивидуально, или у вас будет идеально подходящая модель.

Но помните о возможной вселенной взаимодействий между местоположениями, которые вы можете смоделировать здесь.Думмирование их всех предполагает, что между ними нет взаимодействия, или, по крайней мере, одного из них, о котором вы заботитесь, или которые связаны с чем-то, что вас волнует.Он учитывает только фиксированные эффекты, то есть вы предполагаете, что динамика времени в каждом местоположении одинакова, просто некоторые местоположения имеют тенденцию в целом и в среднем имеют большее количество приложений, чем другие.Вы можете получить тонны предикторов, относящихся к любому данному местоположению, на основе номера (-ов) приложения в другом (-их) местоположении (-ах) - текущем номере, прошлом номере и т. Д. Все зависит от того, что вы считаете возможным и информативным для учета.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...