Корреляция данных на основе временных событий с использованием Pyspark - PullRequest
0 голосов
/ 11 июля 2019

, поэтому мне интересно, каков наилучший подход для расчета корреляции и силы между двумя данными / переменными на основе временных событий.В настоящее время я использую Pyspark, чтобы создать фрейм данных из моих данных, и поигрался с функцией Windows, но я не очень уверен, куда мне идти отсюда.

Например, в Timestamp: 10-07-2019 10:00:00 событие 1 происходит в категории A, а затем следующее событие 2 происходит в метке времени 10-07-2019 10:03:21 в категории B, и цель состоит в проведении статистического анализа, чтобы увидеть, как такие события, как этидве (с разными категориями) коррелируют на основании того, насколько близко они происходят во времени и как часто и к какой категории они относятся.

Какие инструменты или методы могут помочь мне достичь этого результата, надеюсь, что это имеет смысл, и с нетерпением ждем ответа.

...