Question

У меня есть файл .csv, который использует «\ t» в качестве разделителя, который я пытаюсь прочитать как:

DF =  sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')

Некоторые имена столбцов заголовков, а также значения данных содержат пробелы, но никогда не вкладки. Заголовок этого файла правильно считывается в заголовок DF, но в DataFrame данные не считываются. Что я делаю не так?

Nevermore · Answer 1 · 08 января 2020

Вы пытались использовать SparkSession API?

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()

Документация находится здесь: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=csv#pyspark. sql .DataFrameReader.csv

Spark - файл tsv читается как пустой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark - файл tsv читается как пустой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов