Spark - файл tsv читается как пустой - PullRequest
0 голосов
/ 08 января 2020

У меня есть файл .csv, который использует «\ t» в качестве разделителя, который я пытаюсь прочитать как:

DF =  sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')

Некоторые имена столбцов заголовков, а также значения данных содержат пробелы, но никогда не вкладки. Заголовок этого файла правильно считывается в заголовок DF, но в DataFrame данные не считываются. Что я делаю не так?

1 Ответ

0 голосов
/ 08 января 2020

Вы пытались использовать SparkSession API?

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()

Документация находится здесь: https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=csv#pyspark. sql .DataFrameReader.csv

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...