Как установить имя раздела по уникальному идентификатору столбца на s3, используя R - PullRequest
0 голосов
/ 14 мая 2019

Я работаю над фреймом данных, в котором один столбец однозначно идентифицирует данные, а другой - в столбце статуса.

Я хочу создать один раздел на amazon s3 в моем сегменте для каждого уникального идентификатора и поместить в этот раздел json строки, которая дает имя разделу, но я не могу выяснить, как я могу переименовать раздел имя, чтобы стать моим идентификатором и как правильно сохранить.

Я использую R и Sparklyr.

Фрейм данных выглядит так:

    UniqueId | Status  
    3456    |  TRUE  
    1244   |   TRUE  
    5559     | FALSE  

Я хочу, чтобы мои разделы на моем ведре были:

    /part_3456  
    /part_1244   
    /part_5559  

Внутри / part_3456 Я хотел бы JSON, как:

    {  
    uniqueId: 3456  
    status: TRUE  
    }  

Как мои разделы в моем ведре на самом деле:

    /part_904890489083093   
    /part_309303904944432     
    /part_530983908209820  

(это числа - некоторые автоматические идентификаторы Amazon)

    message('-->> saving final dataset on S3...')

    numberOfElements <- count(finalDataset)
    path_s3 <- 's3://path/to/s3'
    sdf_repartition(copy_to(sc, finalDataset, overwrite = TRUE), 
                    partitions = numberOfElements , 
                    partition_by = "UniqueId") %>%
    sdf_coalesce(numberOfElements) %>%
    spark_write_json(path = path_s3,mode = 'overwrite')

Помощь? :-): -)

...