Question

У меня есть CSV-файл размером 2 ТБ, поэтому мне нужно обработать файл лучше, чем раньше, используя pyspark.

Во-первых, мне нужно разделить файл на основе одной спецификации c значение столбца, а затем применить преобразования к каждому разделенному файлу, а затем сохранить его в базе данных.

, поэтому здесь проблема в том, что мне нужно обработать файл более оптимистично c (более производительным) способом.

Пожалуйста, поделитесь своими мыслями.

Как разбить файл на основе значения столбца, и то же самое нужно обработать позже

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как разбить файл на основе значения столбца, и то же самое нужно обработать позже

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы