Как сохранить / удалить данные из исходной таблицы DB2, используя Pyspark / SQL / DataFrames SPARK RDD? - PullRequest
0 голосов
/ 09 мая 2019

Я пытаюсь запустить upsert / delete некоторые значения в исходной таблице базы данных DB2, которая является существующей таблицей в DB2.Возможно ли использовать Pyspark / Spark SQL / Dataframes.

1 Ответ

0 голосов
/ 10 мая 2019

Нет прямого способа обновления / удаления в реляционной базе данных с помощью задания Pyspark, но есть обходные пути.

(1) Вы можете создать идентичную пустую таблицу (вторичную таблицу) в реляционной базе данных и вставить данныево вторичную таблицу, используя задание pyspark, и запишите триггер DML, который будет выполнять желаемую операцию DML с вашей первичной таблицей.

(2) Вы можете создать в искре фрейм данных (например, a), который будет копией вашегосуществующую реляционную таблицу и объединить существующий фрейм данных таблицы с текущим фреймом данных (например, b) и создать новый фрейм данных (например, c), который будет иметь последние изменения.Теперь обрежьте таблицу реляционной базы данных и перезагрузите с фреймом последних изменений spark (c).

Это всего лишь обходной путь, а не оптимальное решение для огромного количества данных.

...