Добавление значений двух столбцов, типы данных которых находятся в строковом формате в pyspark - PullRequest
0 голосов
/ 17 января 2020

Файлы журнала имеют формат json, я извлек данные в кадр данных pyspark. Есть два столбца, значения которых указаны в int, но тип данных столбца - строка.

cola|colb
45|10
10|20

Ожидаемый результат

newcol
55
30

но я получаю вывод как

4510    
1020

Код, который я использовал как

df = .select (F.concat("cola","colb") as newcol).show()

, пожалуйста, помогите мне, как я могу получить правильный вывод.

1 Ответ

0 голосов
/ 17 января 2020
>>> from pyspark.sql.functions import col

>>> df.show()
+----+----+
|cola|colb|
+----+----+
|  45|  10|
|  10|  20|
+----+----+

>>> df.printSchema()
root
 |-- cola: string (nullable = true)
 |-- colb: string (nullable = true)

>>> df.withColumn("newcol", col("cola") + col("colb")).show()
+----+----+------+
|cola|colb|newcol|
+----+----+------+
|  45|  10|  55.0|
|  10|  20|  30.0|
+----+----+------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...