Я пытаюсь сгенерировать уникальные идентификаторы для моего фрейма данных в разделах AWS s3, используя ниже
df_1 = df_1.withColumn("unique_id", get_unique_id_udf(df_1["partition1"], df_1["partition2"], df_3["partition3"], monotonically_increasing_id()))
Поэтому я ожидаю уникальные идентификаторы в формате
partition1name_partition2name_partition3name_id
Это прекрасно работает для тех разделов с одним файлом, но генерирует двойные идентификаторы для тех разделов, в которых имеется более 1 файла.
Например: представьте, что у меня 1 файл в s3местоположение p1 / p2 / p3, я получаю уникальные идентификаторы
- p1_p2_p3_0
- p1_p2_p3_1
- p1_p2_p3_2
Но если у меня есть 3 файла в папке s3 p1 / p2 / p3 в том же формате, идентификаторы дублируются, и я получаю
- p1_p2_p3_0
- p1_p2_p3_0
- p1_p2_p3_0
Есть ли что-нибудь, что я могу сгенерироватьуникальные идентификаторы, даже если у меня есть несколько файлов в одном месте?Спасибо.