Как выбрать тип транспортного средства из входящего потока? - PullRequest
0 голосов
/ 30 апреля 2020

У меня есть некоторые данные, подобные этой.

1012,2020,1,31,1,30,3,0,90,3,Northbound 3,0,,2,CAR,4.3,20.0,19.83,128.0,0.0,0.0,0,0,0,,
1012,2020,1,31,1,30,4,0,90,2,Northbound 2,0,,2,CAR,4.2,19.8,19.11,94.0,0.0,0.0,0,0,0,,

мне нужно получить тип транспортного средства, т.е. CAR, пока я получаю данные в паре. код для моей потоковой передачи:

from pyspark.streaming import StreamingContext
import time

ssc = StreamingContext(sc, 5)
lines = ssc.textFileStream("file:///home/<path>/counterData/")
car = lines.flatMap(lambda line: line.split(","))
classCount = car.map(lambda x: (x[15], 1))
classCount = classCount.reduceByKey(lambda x, y: x + y)
classCount.pprint()
ssc.start()
time.sleep(5)
...