Я пытаюсь использовать Процессы детерминантной точки (DPP) для «моделирования» распределений моих данных, в частности «времени выполнения» задачи. Чтобы было понятнее, у меня есть набор данных со столбцами order_id
и wait_time
(которым я не могу поделиться из-за соображений конфиденциальности), в котором записывается время, которое клиент должен был ждать в секундах для своего заказа.
На сегодняшний день мне удалось получить только наиболее подходящее распределение с использованием собственных sklearn
распределений со ссылкой на Как найти распределение вероятности и параметры для реальных данных? (Python 3) . Недавно я случайно наткнулся на статью https://arxiv.org/abs/1809.07258 с реализацией на Python.
Я все еще пытаюсь разобраться в частях документации, скажем, https://dppy.readthedocs.io/en/latest/finite_dpps/definition.html и https://dppy.readthedocs.io/en/latest/finite_dpps/exact_sampling.html#finite-dpps-exact-sampling-k-dpps. Моя цель - получить смоделированные выборки данных за следующий год (например,2015), используя текущий набор данных, приведенный выше для 2014 года, например,
Можно ли использовать dppy
для получения этих смоделированных выборок с моим текущим набором данных? В настоящее время я просматриваю следующий код в документации , чтобы получить образцы:
import numpy as np
from dppy.finite_dpps import FiniteDPP
rng = np.random.RandomState(1)
r, N = 5, 10
# Random feature vectors
Phi = rng.randn(r, N)
DPP = FiniteDPP('likelihood', **{'L': Phi.T.dot(Phi)})
k = 4
for _ in range(10):
DPP.sample_exact_k_dpp(size=k, random_state=rng)
print(list(map(list, DPP.list_of_samples)))
Я на правильном пути или у меня просто общее большое заблуждениена заявлениях dppy
для моего случая?
Я понимаю, что этот сайт может не подходить для этого вопроса, но было бы здорово, если бы я мог получить какое-то направление и / или рекомендациюНасколько мне известно, DPP не были (возможно, но не могут найти примеры) реализованы для таких случаев использования, как мой, в Python.