Объединение двух датакадров Spark - PullRequest
0 голосов
/ 30 августа 2018

Я попытался объединить два Spark DataFrame в Python, один из которых иногда пуст, я сделал тест if, чтобы вернуть его полностью. Например, следующий небольшой код возвращает ошибку:

>>> from pyspark.sql.types import *
>>> fulldataframe = [StructField("FIELDNAME_1",StringType(), True),StructField("FIELDNAME_2", StringType(), True),StructField("FIELDNAME_3", StringType(), True)]
>>> schema = StructType([])
>>>
>>> dataframeempty = sqlContext.createDataFrame(sc.emptyRDD(), schema)
>>> resultunion = sqlContext.createDataFrame(sc.emptyRDD(), schema)
>>> if (fulldataframe.isEmpty()):
...     resultunion = dataframeempty
... elif (dataframeempty.isEmpty()):
...     resultunion = fulldataframe
... else:
...     resultunion=fulldataframe.union(dataframeempty)
...


Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'list' object has no attribute 'isEmpty'
>>>

Кто-то может сказать мне, где вина?

1 Ответ

0 голосов
/ 30 августа 2018

Счет может занять много времени. В Scala:

dataframe.rdd.isEmpty()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...