дублированные идентификаторы, сгенерированные monotonically_increasing_id () в скрипте AWS Glue для более чем одного файла в одном разделе - PullRequest
0 голосов
/ 20 декабря 2018

Я пытаюсь сгенерировать уникальные идентификаторы для моего фрейма данных в разделах AWS s3, используя ниже

df_1 = df_1.withColumn("unique_id", get_unique_id_udf(df_1["partition1"], df_1["partition2"], df_3["partition3"], monotonically_increasing_id()))

Поэтому я ожидаю уникальные идентификаторы в формате

partition1name_partition2name_partition3name_id

Это прекрасно работает для тех разделов с одним файлом, но генерирует двойные идентификаторы для тех разделов, в которых имеется более 1 файла.

Например: представьте, что у меня 1 файл в s3местоположение p1 / p2 / p3, я получаю уникальные идентификаторы

  1. p1_p2_p3_0
  2. p1_p2_p3_1
  3. p1_p2_p3_2

Но если у меня есть 3 файла в папке s3 p1 / p2 / p3 в том же формате, идентификаторы дублируются, и я получаю

  1. p1_p2_p3_0
  2. p1_p2_p3_0
  3. p1_p2_p3_0

Есть ли что-нибудь, что я могу сгенерироватьуникальные идентификаторы, даже если у меня есть несколько файлов в одном месте?Спасибо.

...