monotonically_increasing_id генерирует 2 разных уникальных идентификатора для одной и той же записи в версии 2.3.1? - PullRequest
0 голосов
/ 18 сентября 2018

Я создаю столбец в моем фрейме данных, используя monotonically_increasing_id, через 2-3 преобразования, для некоторых из которых идентификатор записи изменяется.например,

val newDf = df.withColumn("rowId", monotonically_increasing_id()) 
newDf.show()

+---------+--------------------+-------+
| userId  | area    |  flag |rowId|
+---------+--------------------+-------+
|123      |[Blah1...|   true|    0|
|234      |[Blah2...|   true|    1|
|216      |[Blah3...|   true|    2|
|123      |[blah4...|  false|    3|
|345      |[Blah5...|   true|    4|
|677      |[Blah6...|  false|    5|

после еще нескольких преобразований в newDf

...//val df1
...//val df2
...//val df3
...//val finalDf 

finalDf.show()

+---------+--------------------+-------+
| userId  | area    |  flag |rowId|
+---------+--------------------+-------+
|123      |[Blah1...|   true|    0|
|234      |[Blah2...|   true|    1|
|216      |[Blah3...|   true|    2|
|123      |[blah4...|  false|    6|
|345      |[Blah5...|   true|    7|
|677      |[Blah6...|  false|    8|

некоторые строки изменились.

Предполагая, что после генерации фрейма данных с monotonically_increasing_id он кэширует его в памяти.Что делать, если оно выселено из памяти.Дальнейшие действия попытаются снова восстановить фрейм данных / (часть раздела)

Может кто-нибудь помочь мне?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...