Как удалить кавычки "" из столбца фрейма данных Spark в pyspark - PullRequest
0 голосов
/ 08 ноября 2019

У меня есть фрейм данных.

+-------+-----+
|   Name|  age|
+-------+-----+
|  "aaa"|  111|
|"asasa"| 8888|
| "2323"|  999|
|"wewwe"|99999|
+-------+-----+

Я хочу, чтобы он был таким:

+-------+-----+
|   Name|  age|
+-------+-----+
|  aaa  |  111|
| asasa | 8888|
| 2323  |  999|
| wewwe |99999|
+-------+-----+

Как я могу добиться этого в SPark2, используя код pyspark.

Если есть решение, пожалуйста, ответьте. Заранее спасибо:)

1 Ответ

1 голос
/ 08 ноября 2019
from pyspark.sql.functions import *
newDf = df.withColumn('Name', regexp_replace('Name', '"', ''))

Краткое объяснение:

  • Вызывается функция withColumn для добавления (или замены, если имя существует) столбца к фрейму данных.
  • Функция regexp_replaceсоздаст новый столбец, заменив все подстроки, которые соответствуют шаблону.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...