как найти сумму всех данных столбца в pyspark RDD? - PullRequest
0 голосов
/ 20 июня 2020

У меня есть текстовые данные с разделителями табуляции с 5 столбцами, мне нужно узнать сумму 4-го столбца.

# Find the total sales values:

from pyspark import SparkContext, SparkConf

if __name__ == '__main__':
    conf = SparkConf().setAppName("sales").setMaster("local[2]")

    sc = SparkContext(conf=conf)

    sales = sc.textFile("C:\\Users\\Desktop\\Retail_Sample_Data_Set.txt")
    result = sales.map(lambda line: line.split("\t")[4])

Я использовал sum () и уменьшить по ключу, но у меня ничего не работает. Пожалуйста, помогите мне?

1 Ответ

1 голос
/ 20 июня 2020

Ваша лямбда в преобразовании map возвращает строку. Возможно, вам потребуется использовать приведение типов. Например, если 5-й столбец - это int, измените лямбда в вашем map на lambda line: int(line.split("\t")[4]) или, если это float, то lambda line: float(line.split("\t")[4]).

...