Мне нужна помощь в подсчете заданных значений c столбца в файле .csv
Я попробовал этот код, но не работает: я хочу посчитать строку в столбце 47 с помощью spark rdd. Я хочу, чтобы код подсчитывал каждую строку в столбце.
Желаемый результат должен быть таким:
Dos, 1000 Exploits, 2000 Fuzzers, 5000 и так далее. DoS, Exploits, Fuzzers, Normal - все строки, которые нужно посчитать в определенном столбце папки .csv
, это код, который я использовал, и он не работает.
rd_stream = ss c .queueStream (usw_lst)
words= rd_stream.flatMap(lambda line:line.split("x[47]"))
filtline =words.map(lambda x: (distinct(x[47]), 1)
streamdata =filtline.reduceByKey(lambda a, b: a+b)
count.pprint ()
Может кто-нибудь помочь?