Я работаю над фреймом данных, в котором один столбец однозначно идентифицирует данные, а другой - в столбце статуса.
Я хочу создать один раздел на amazon s3 в моем сегменте для каждого уникального идентификатора и поместить в этот раздел json строки, которая дает имя разделу, но я не могу выяснить, как я могу переименовать раздел имя, чтобы стать моим идентификатором и как правильно сохранить.
Я использую R и Sparklyr.
Фрейм данных выглядит так:
UniqueId | Status
3456 | TRUE
1244 | TRUE
5559 | FALSE
Я хочу, чтобы мои разделы на моем ведре были:
/part_3456
/part_1244
/part_5559
Внутри / part_3456 Я хотел бы JSON, как:
{
uniqueId: 3456
status: TRUE
}
Как мои разделы в моем ведре на самом деле:
/part_904890489083093
/part_309303904944432
/part_530983908209820
(это числа - некоторые автоматические идентификаторы Amazon)
message('-->> saving final dataset on S3...')
numberOfElements <- count(finalDataset)
path_s3 <- 's3://path/to/s3'
sdf_repartition(copy_to(sc, finalDataset, overwrite = TRUE),
partitions = numberOfElements ,
partition_by = "UniqueId") %>%
sdf_coalesce(numberOfElements) %>%
spark_write_json(path = path_s3,mode = 'overwrite')
Помощь? :-): -)