Как разбить файл на основе значения столбца, и то же самое нужно обработать позже - PullRequest
0 голосов
/ 27 мая 2020

У меня есть CSV-файл размером 2 ТБ, поэтому мне нужно обработать файл лучше, чем раньше, используя pyspark.

Во-первых, мне нужно разделить файл на основе одной спецификации c значение столбца, а затем применить преобразования к каждому разделенному файлу, а затем сохранить его в базе данных.

, поэтому здесь проблема в том, что мне нужно обработать файл более оптимистично c (более производительным) способом.

Пожалуйста, поделитесь своими мыслями.

...