Создайте unique_id определенной длины, используя Pyspark - PullRequest
0 голосов
/ 01 октября 2018

Я хотел бы создать уникальный_идентификатор для каждой строки в моем фрейме данных, основываясь на дате.

df1:

+---+-----+----+-------+-----+
|day|month|year| userid|units|
+---+-----+------------+-----+
| 01|   01|2016|87cb11 |    0|
| 01|   01|2016|87cb11 |    1|
| 01|   01|2016|87cb11 |    2|
| 02|   01|2016|87cb11 |    0|
| 02|   01|2016|87cb11 |    1|
| 02|   01|2016|87cb11 |    2|
+---+-----+----+-------+-----+

Я пытался использовать monotonically_increasing_id(), но яЯ не уверен, как создать увеличивающееся число, которое будет иметь определенную длину.

df2:

+---+-----+----+-------+-----+---------------+
|day|month|year| userid|units| unique_id     |
+---+-----+------------+-----+---------------+
| 01|   01|2016|87cb11 |    0|201601010000001|
| 01|   01|2016|87cb11 |    1|201601010000002|
| 01|   01|2016|87cb11 |    2|201601010000003|
| 02|   01|2016|87cb11 |    0|201601020000001|
| 02|   01|2016|87cb11 |    1|201601020000002|
| 02|   01|2016|87cb11 |    2|201601020000003|
+---+-----+----+-------+-----+---------------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...