Pyspark, TypeError: объект 'Column' не вызывается - PullRequest
0 голосов
/ 10 мая 2018

Как распечатать содержимое столбца, выполнив следующую операцию? Я пытаюсь распечатать содержимое столбца abcd, в обычном df, я могу сделать df.show().

Но как мне показать объекты столбца?

>>> df = spark.createDataFrame([
...     ('a', 1.0, 1.0), ('a',1.0, 0.2), ('b', 1.0, 1.0),
...     ('c' ,1.0, 0.5), ('d', 0.55, 1.0),('e', 1.0, 1.0)
... ])
>>> df.show()
+---+----+---+                                                                  
| _1|  _2| _3|
+---+----+---+
|  a| 1.0|1.0|
|  a| 1.0|0.2|
|  b| 1.0|1.0|
|  c| 1.0|0.5|
|  d|0.55|1.0|
|  e| 1.0|1.0|
+---+----+---+

>>> abcd = spark_sum(
...     when(
...         spark_abs(
...             df['_2'] -
...             df['_3']
...         ) < 0.05,
...         "odt"
...     ).otherwise(0)
... ).alias(
...     'yo,man'
... )

как распечатать содержимое abcd?

>>> abcd
Column<sum(CASE WHEN (abs((_2 - _3)) < 0.05) THEN odt ELSE 0 END) AS `yo,man`>

1 Ответ

0 голосов
/ 10 мая 2018

как распечатать содержимое abcd?

Довольно просто. Выберите и покажите:

df.select(abcd).show()
...