Какой эффективный способ чтения 1 ТБ HDFS CSV-файла с помощью Python - PullRequest
0 голосов
/ 04 мая 2018

У меня есть файл, который находится в HDFS. Я хотел бы знать, какой эффективный способ чтения файлов с использованием Python. Могу ли я использовать pyspark .?

1 Ответ

0 голосов
/ 04 мая 2018

Вы можете использовать PySpark, что Python API for Spark. Это позволит вам использовать ресурсы кластера, используя Spark. Я бы порекомендовал взять меньший размер файла размером 1 ТБ и протестировать на нем свой код. Если все выглядит хорошо, вы можете отправить свою работу в больший набор данных.

При использовании Spark: в зависимости от того, сколько памяти у вас в кластере, рассмотрите возможность кэширования RDDs в памяти, которую вы планируете часто использовать. Это ускорит выполнение ваших заданий.

...