Question

У меня есть файл, который находится в HDFS. Я хотел бы знать, какой эффективный способ чтения файлов с использованием Python. Могу ли я использовать pyspark .?

Jagrut Sharma · Answer 1 · 04 мая 2018

Вы можете использовать PySpark, что Python API for Spark. Это позволит вам использовать ресурсы кластера, используя Spark. Я бы порекомендовал взять меньший размер файла размером 1 ТБ и протестировать на нем свой код. Если все выглядит хорошо, вы можете отправить свою работу в больший набор данных.

При использовании Spark: в зависимости от того, сколько памяти у вас в кластере, рассмотрите возможность кэширования RDDs в памяти, которую вы планируете часто использовать. Это ускорит выполнение ваших заданий.

Какой эффективный способ чтения 1 ТБ HDFS CSV-файла с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой эффективный способ чтения 1 ТБ HDFS CSV-файла с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы