PySpark Чтение CSV чтения неправильно - PullRequest
0 голосов
/ 22 мая 2019

Я пытаюсь прочитать CSV-файл в PySpark DataFrame. Однако по какой-то причине методы загрузки PySpark CSV загружают значительно больше строк, чем ожидалось.

Я пытался использовать как метод spark.read, так и метод spark.sql для достижения CSV.

df = pd.read_csv("preprocessed_data.csv")
len(df)

# out: 318477
spark_df = spark.read.format("csv")
                     .option("header", "true")
                     .option("mode", "DROPMALFORMED")
                     .load("preprocessed_data.csv")
spark_df.count()

# out: 6422020
df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()

# out: 6422020

Я не могу понять, почему он неправильно читает csv, столбцы выглядят одинаково, когда я их показываю, однако строк слишком много. Поэтому я ищу способ решить эту проблему.

1 Ответ

0 голосов
/ 22 мая 2019

Вы можете попробовать следующее.Я предполагаю, что у вашего CSV есть строка заголовка.

fileName = "my.csv"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(fileName, header=True, inferSchema=True)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...