Понимание того, как DPPy используется в документации и как применять его к реальным данным - PullRequest
0 голосов
/ 11 октября 2019

Я пытаюсь использовать Процессы детерминантной точки (DPP) для «моделирования» распределений моих данных, в частности «времени выполнения» задачи. Чтобы было понятнее, у меня есть набор данных со столбцами order_id и wait_time (которым я не могу поделиться из-за соображений конфиденциальности), в котором записывается время, которое клиент должен был ждать в секундах для своего заказа.

На сегодняшний день мне удалось получить только наиболее подходящее распределение с использованием собственных sklearn распределений со ссылкой на Как найти распределение вероятности и параметры для реальных данных? (Python 3) . Недавно я случайно наткнулся на статью https://arxiv.org/abs/1809.07258 с реализацией на Python.

Я все еще пытаюсь разобраться в частях документации, скажем, https://dppy.readthedocs.io/en/latest/finite_dpps/definition.html и https://dppy.readthedocs.io/en/latest/finite_dpps/exact_sampling.html#finite-dpps-exact-sampling-k-dpps. Моя цель - получить смоделированные выборки данных за следующий год (например,2015), используя текущий набор данных, приведенный выше для 2014 года, например,

Можно ли использовать dppy для получения этих смоделированных выборок с моим текущим набором данных? В настоящее время я просматриваю следующий код в документации , чтобы получить образцы:

import numpy as np
from dppy.finite_dpps import FiniteDPP

rng = np.random.RandomState(1)

r, N = 5, 10
# Random feature vectors
Phi = rng.randn(r, N)
DPP = FiniteDPP('likelihood', **{'L': Phi.T.dot(Phi)})

k = 4
for _ in range(10):
    DPP.sample_exact_k_dpp(size=k, random_state=rng)

print(list(map(list, DPP.list_of_samples)))

Я на правильном пути или у меня просто общее большое заблуждениена заявлениях dppy для моего случая?

Я понимаю, что этот сайт может не подходить для этого вопроса, но было бы здорово, если бы я мог получить какое-то направление и / или рекомендациюНасколько мне известно, DPP не были (возможно, но не могут найти примеры) реализованы для таких случаев использования, как мой, в Python.

...