Значение столбца подсчета Spark Streaming в файле .csv не работает - PullRequest
0 голосов
/ 08 апреля 2020

Мне нужна помощь в подсчете заданных значений c столбца в файле .csv

Я попробовал этот код, но не работает: я хочу посчитать строку в столбце 47 с помощью spark rdd. Я хочу, чтобы код подсчитывал каждую строку в столбце.

Желаемый результат должен быть таким:

Dos, 1000 Exploits, 2000 Fuzzers, 5000 и так далее. DoS, Exploits, Fuzzers, Normal - все строки, которые нужно посчитать в определенном столбце папки .csv

, это код, который я использовал, и он не работает.

rd_stream = ss c .queueStream (usw_lst)

words= rd_stream.flatMap(lambda line:line.split("x[47]"))

filtline =words.map(lambda x: (distinct(x[47]), 1)

streamdata =filtline.reduceByKey(lambda a, b: a+b)

count.pprint ()

Может кто-нибудь помочь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...