Pyspark подвеска Pandas 'Rolling с заданным интервалом времени - PullRequest
0 голосов
/ 27 ноября 2018

Есть ли подвеска для этой функциональности Pandas в Pyspark?

pandasDataFrame.rolling('2s', min_periods=1).sum()

, где у рассматриваемых столбцов есть временные метки, подобные этой

2013-01-01 09:00:00  0.0
2013-01-01 09:00:02  1.0
2013-01-01 09:00:05  3.0
:

(документация здесь: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html)

:

1 Ответ

0 голосов
/ 27 ноября 2018

Используйте функцию window в режиме spark.

from pyspark.sql import functions as F
df.withColumn(
    "window",
    F.window("tmst", "2 secondes")
)
...