Записать количество файлов на основе размера данных в Pyspark - PullRequest
0 голосов
/ 12 июля 2020

У меня есть вариант использования, над которым я работаю.

У меня 100 ГБ данных, и я читаю их через Spark. После чтения и применения некоторых преобразований я записываю эти данные обратно в хранилище.

Проблема в том, что при записи данных я разделяю их по странам. Теперь происходит то, что для некоторых стран данные в ГБ, но для некоторых стран данные в МБ.

Поскольку я использую Coalesce (100), нет проблем с сохранением ГБ данных в 100 файлах, но сохранение нескольких МБ в 100 файлах является проблемой.

Итак, я каким-то образом хочу создать количество файлов в разделе на основе количества строк, указанных в c Country.

...