Объект DataFrame не имеет атрибута insert - PullRequest
0 голосов
/ 07 апреля 2020

Во время выполнения этой команды dupedWithColsDF = dupedDF.insert(loc=len(dupedDF.columns), column='lcFirstName', value=lower(firstName))

я получаю ошибку: у объекта 'DataFrame' нет атрибута 'insert'

Также я пытаюсь вставить новый столбец в кадр данных, как this:

dupedWithColsDF = dupedDF.assign (lcFirstName = lower(firstName), 
                             lcLastName = lower(lastName), 
                             lcMiddleName = lower(middleName))

Я получаю сообщение об ошибке: у объекта 'DataFrame' нет атрибута 'assign'

Может кто-нибудь посоветовать, как это исправить и как добавить новые столбцы в фрейм данных? Заранее спасибо.

1 Ответ

0 голосов
/ 07 апреля 2020

чтобы добавить столбец в фрейм данных, который вы должны использовать сColumn:

df.withColumn('age2', df.age + 2).collect()
[Row(age=2, name='Alice', age2=4), Row(age=5, name='Bob', age2=7)]

в основном вы можете просто сделать это для примера, который вы разместили:

dupedWithColsDF = dupedDF.withColumn("lcFirstName", lower(dupedDF.firstName)).withColumn("lcLastName", lower(dupedDF.lastName)).
withColumn("middleName", lower(dupedDF.middleName))

вы можете посмотреть здесь, чтобы понять API для использования и которые поддерживаются: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark. sql .functions.pandas_udf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...