Вы можете использовать PySpark
, что Python API for Spark
. Это позволит вам использовать ресурсы кластера, используя Spark
. Я бы порекомендовал взять меньший размер файла размером 1 ТБ и протестировать на нем свой код. Если все выглядит хорошо, вы можете отправить свою работу в больший набор данных.
При использовании Spark: в зависимости от того, сколько памяти у вас в кластере, рассмотрите возможность кэширования RDDs
в памяти, которую вы планируете часто использовать. Это ускорит выполнение ваших заданий.