Question

У меня есть процесс, чтобы прочитать CSV-файлы и выполнить некоторую обработку в pyspark. Иногда я могу получить пустой файл с нулевым байтом. В таких случаях, когда я использую код ниже

df = spark.read.csv('/path/empty.txt', header = False)

Не удается с ошибкой:

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o139.csv. : java.lang.UnsupportedOperationException: пустая коллекция

Так как его пустой файл я пытался прочитать как json, он работал нормально

df = spark.read.json('/path/empty.txt')

Когда я добавляю заголовок в empt csv вручную, код читается нормально.

df = spark.read.csv('/path/empty.txt', header = True)

В немногих местах, которые я читал, чтобы использовать databricks csv, но У меня нет параметров пакета csv для блоков данных, так как эти jar-файлы недоступны в моей среде.

Чтение пустого CSV Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Чтение пустого CSV Pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы