Ничего не найдено в _spark_metadata - PullRequest
0 голосов
/ 09 июня 2018

Я пытаюсь прочитать CSV-файлы из определенной папки и записать то же содержимое в другой CSV-файл в другом месте на локальном компьютере для целей обучения.Я могу прочитать файл и показать содержимое на консоли.Однако, если я хочу записать его в другой CSV-файл в указанном выходном каталоге, я получаю папку с именем «_spark_metadata», которая не содержит ничего внутри.

Я вставляю весь код здесь шаг за шагом:

создание сеанса Spark:

spark = SparkSession \
.builder \
.appName('csv01') \
.master('local[*]') \
.getOrCreate();

spark.conf.set("spark.sql.streaming.checkpointLocation", <String path to checkpoint location directory> )
userSchema = StructType().add("name", "string").add("age", "integer")

Чтение из CSV-файла

df = spark \
.readStream \
.schema(userSchema) \
.option("sep",",") \
.csv(<String path to local input directory containing CSV file>)

Запись в CSV-файл

df.writeStream \
.format("csv") \
.option("path", <String path to local output directory containing CSV file>) \
.start()

In "Строковый путь к локальному выходному каталогу, содержащемуCSV-файл "Я получаю только папку _spark_metadata, в которой нет CSV-файла.

Любая помощь по этому вопросу высоко ценится

1 Ответ

0 голосов
/ 09 июня 2018

Вы не используете readStream для чтения из статических данных.Вы используете это для чтения из каталога, в который файлы добавляются в эту папку.

Вам нужен только spark.read.csv

...