AWS клей Scala Upsert - PullRequest
       17

AWS клей Scala Upsert

0 голосов
/ 24 сентября 2018

Я пытаюсь перенести данные в существующую корзину S3 из другой, используя AWS Glue в Scala.Есть ли стандартный способ использовать это?Одним из методов, которые я нашел, было использование метода MERGE в SQL.Каковы преимущества и недостатки использования этого?

Спасибо

1 Ответ

0 голосов
/ 25 сентября 2018

Вы не можете реально реализовать метод SQL MERGE в s3, так как невозможно обновить существующие объекты данных.

Обходной путь - загрузить существующие строки в задании Glue, объединить их с входящим набором данных, удалить устаревшие записи и перезаписать все объекты на s3.Если у вас много данных, было бы более эффективно разделить их на несколько столбцов, а затем переопределить те разделы, которые должны содержать только новые данные.

Если ваша цель - предотвратить дублирование, вы можете сделать то же самое: загрузить существующийудалите те записи из входящего набора данных, которые уже существуют в s3 (загружены на предыдущем шаге), а затем запишите в s3 только новые записи.

...