Question

Я вижу пару сообщений post1 и post2 , которые имеют отношение к моему вопросу. Однако, следуя решению post1, я сталкиваюсь с приведенной ниже ошибкой.

joinedDF = df.join(df_agg, "company")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/opt/spark/python/pyspark/sql/dataframe.py", line 1050, in join
    jdf = self._jdf.join(other._jdf, on, how)
AttributeError: 'NoneType' object has no attribute '_jdf'

Весь фрагмент кода

df = spark.read.format("csv").option("header", "true").load("/home/ec2-user/techcrunch/TechCrunchcontinentalUSA.csv")

df_agg = df.groupby("company").agg(func.sum("raisedAmt").alias("TotalRaised")).orderBy("TotalRaised", ascending = False).show()

joinedDF = df.join(df_agg, "company")

M. Alexandru · Answer 1 · 16 января 2020

во второй строке у вас есть .show в конце

df_agg = df.groupby("company").agg(func.sum("raisedAmt").alias("TotalRaised")).orderBy("TotalRaised", ascending = False).show()

удалите его так:

df_agg = df.groupby("company").agg(func.sum("raisedAmt").alias("TotalRaised")).orderBy("TotalRaised", ascending = False)

и ваш код должен работать.

Вы использовал действие для этого df и присвоил его переменной df_agg, поэтому ваша переменная имеет тип NoneType (в python) или Unit (в scala)

получить столбцы группы записей в pyspark с датафреймами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получить столбцы группы записей в pyspark с датафреймами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы