CSV-файл:
#+----+-----------+-------------------+
#|col1| col2| timestamp|
#+----+-----------+-------------------+
#| 0|Town Street|01-02-2017 06:01:00|
#| 0|Town Street|01-02-2017 06:03:00|
#| 0|Town Street|01-02-2017 06:05:00|
#| 0|Town Street|01-02-2017 06:06:00|
#| 0|Town Street|02-02-2017 10:01:00|
#| 0|Town Street|02-02-2017 10:05:00|
#+----+-----------+-------------------+
сравните время каждой даты, чтобы увидеть, есть ли разница в 5 минут, если их считать их
вывод:
#+----+-----------+-------------------+
#|col1| col2| timestamp|
#+----+-----------+-------------------+
#| 0|Town Street|01-02-2017 06:01:00|
#| 0|Town Street|01-02-2017 06:03:00|
#| 0|Town Street|01-02-2017 06:05:00|
#| 0|Town Street|01-02-2017 06:06:00|
#| 0|Town Street|02-02-2017 10:01:00|
#| 0|Town Street|02-02-2017 10:05:00|
#+----+-----------+-------------------+
Код прямо сейчас:
from pyspark.sql import SQLContext
import pyspark.sql.functions as F
def my_main(sc, my_dataset_dir):
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(my_dataset_dir,sep=';').rdd.zipWithIndex().filter(lambda x: x[1] > 1).map(lambda x: x[0]).toDF(['status','title','datetime'])
Этот код просто дает нулевой результат в течение 5 мин.