У меня есть CSV-файл размером 2 ТБ, поэтому мне нужно обработать файл лучше, чем раньше, используя pyspark.
Во-первых, мне нужно разделить файл на основе одной спецификации c значение столбца, а затем применить преобразования к каждому разделенному файлу, а затем сохранить его в базе данных.
, поэтому здесь проблема в том, что мне нужно обработать файл более оптимистично c (более производительным) способом.
Пожалуйста, поделитесь своими мыслями.