Question

Может кто-нибудь сказать мне, как читать файлы параллельно? Я пытаюсь что-то вроде этого:

def processFile(path):
  df = spark.read.json(path)
  return df.count()

paths = ["...", "..."]

distPaths = sc.parallelize(paths)
counts = distPaths.map(processFile).collect()
print(counts)

Сбой со следующей ошибкой:

PicklingError: Не удалось сериализовать объект: Исключение: Похоже, что вы пытаетесь сослаться SparkContext из широковещательной переменной, действия или преобразования. SparkContext может использоваться только в драйвере, а не в коде, который он запускает на рабочих. Для получения дополнительной информации см. SPARK-5063.

Есть ли другой способ оптимизировать это?

mazaneicha · Answer 1 · 20 марта 2020

В вашем конкретном случае вы можете просто передать весь массив paths в DataFrameReader:

df = spark.read.json(paths)

... и чтение его файловых элементов будет распараллелено Spark.

Как читать файлы параллельно в DataBricks?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать файлы параллельно в DataBricks?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы