Я новичок в спарк, и у меня есть некоторые данные для работы, я хочу суммировать общее количество столбца в файле CSV, заголовок файла: ([colmun1], [colmun2], [colmun3]), я пытаюсь вычислить сумму column3 согласно column1 , (column1 представляет дату, column2 представляет категорию, column3 возникновение одной из категорийв эту дату, поэтому я хочу рассчитать сумму всех категорий для каждой даты), я попробовал этот код:
from pyspark import SparkContext, SparkConf
if __name__ == "__main__":
conf = SparkConf().setAppName("sum").setMaster("local[3]")
sc = SparkContext(conf = conf)
line.split(",")).map(lambda line: (line[0:1]+line[3:4]))
text_file = sc.textFile("in/fileinput.CSV")
counts = text_file.flatMap(lambda line: line.split(",")) \
.map(lambda line: (line[0:1],line[2:3])) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("out/fileoutput.txt")
заранее спасибо (извините за мой английский)