Правильная ширина корзины для данных о продажах временных рядов - PullRequest
0 голосов
/ 02 ноября 2019

Я пытаюсь подсчитать, заказывает клиент меньше или нет, и, что более важно, значения заказов клиентов меньше всего.

Я подумал, что мог бы использовать модель линейной регрессии, чтобы уместить линию надДанные о продажах для каждого клиента и использовать коэффициент, чтобы увидеть, какой наклон является наиболее отрицательным.

Моя проблема в том, что наши клиенты могут делать заказы время от времени, с очень разными значениями.

Экстремальный пример - данные могут выглядеть следующим образом.

enter image description here

Линия регрессии имеет отрицательный наклон из-за меньших ордеров, тянущих ее вниз. И есть большая вероятность того, что наши клиенты будут делать много мелких заказов между их большими заказами. Потянув линию вниз все больше и больше.

Example Change

Я знаю, если я сгруппирую ордера в диапазоны дат, я смогу достичь своей цели, но я не могу показатьсячтобы получить правильные расстояния, так как каждый клиент будет заказывать по другому шаблону. Я пытался использовать pd.diff () в столбце даты, чтобы определить среднее расстояние между заказами, и использовать его в качестве моего диапазона, но у некоторых клиентов так много различий, что он неработоспособен.

Малые заказы, объединенные вместеSmall Orders Binned

Но есть ли правильный метод для расчета количества бинов или диапазона дат, которые я должен использовать? Или я выбираю произвольный номер и использую его для каждого клиента?

Любая помощь приветствуется.

...