У меня есть процесс, чтобы прочитать CSV-файлы и выполнить некоторую обработку в pyspark. Иногда я могу получить пустой файл с нулевым байтом. В таких случаях, когда я использую код ниже
df = spark.read.csv('/path/empty.txt', header = False)
Не удается с ошибкой:
py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o139.csv.
: java.lang.UnsupportedOperationException: пустая коллекция
Так как его пустой файл я пытался прочитать как json, он работал нормально
df = spark.read.json('/path/empty.txt')
Когда я добавляю заголовок в empt csv
вручную, код читается нормально.
df = spark.read.csv('/path/empty.txt', header = True)
В немногих местах, которые я читал, чтобы использовать databricks csv, но
У меня нет параметров пакета csv для блоков данных, так как эти jar-файлы недоступны в моей среде.