Question

У меня есть искровой фрейм данных

        df = spark.createDataFrame([('Andy', 'NY'), ('Bob', 'PA'), ('Cindy', 'DC')], ("FName","City "))

Здесь я пытаюсь создать новый фрейм данных с зашифрованным столбцом Fname. Функция шифрования PGP, приведенная ниже, принимает строку в качестве входных данных и дает зашифрованную строку в качестве выходных.

df.createOrReplaceTempView("Customer")

for line in spark.table("Customer").collect():
    gpg = gnupg.GPG()
    gpg.import_keys('/home/keys/key.txt')
    encry_str=gpg.encrypt(line.FName, 'recipientid', passphrase='passphrase', always_trust=True)
    print(encry_str)

Зашифрованная строка выглядит следующим образом:

Ожидаемый вывод

+-----+-----+--------------------+
|FName|City |           Encrypted|
+-----+-----+--------------------+
| Andy|   NY|-----BEGIN PGP ME...|
|  Bob|   PA|-----BEGIN PGP ME...|
|Cindy|   DC|-----BEGIN PGP ME...| 
+-----+-----+--------------------+

Я пытаюсь обновить столбец FName, но получаю исключение

line.FName=gpg.encrypt(line.FName, 'recipientid', passphrase='passphrase', always_trust=True)

Исключение: строка доступна только для чтения.

Как в приведенном выше кадре я могу добавлять / обновлять значения зашифрованных строк в соответствующие столбцы Dataframe?

Kris · Answer 1 · 19 ноября 2018

Вы должны думать о кадрах данных Spark и RDD как о ссылках / рецептах на базовые данные.Поэтому, если вы действительно хотите изменить данных, вам необходимо сначала преобразовать, а затем обновить / перезаписать существующие данные.

Для преобразования:

from pyspark.sql import Row

def mapper(row):
    # if row doesn't need updating, return original
    if row['my_test_column'] != 'some_test_value':
        return row

    row = row.asDict()
    row['updated_column'] = some_function(row['some_column'], ...)

    return Row(**row)

Всохранить:

df_updated.write.saveAsTable('my_schema.my_new_table')

Для обновления / перезаписи:

df_updated.write.mode('overwrite').saveAsTable('my_schema.my_table')

Как обновить значение искрового датафрейма в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Для преобразования:

Всохранить:

Для обновления / перезаписи:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обновить значение искрового датафрейма в python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Для преобразования:

Всохранить:

Для обновления / перезаписи:

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов