Я пытаюсь прочитать CSV-файл в PySpark DataFrame. Однако по какой-то причине методы загрузки PySpark CSV загружают значительно больше строк, чем ожидалось.
Я пытался использовать как метод spark.read
, так и метод spark.sql
для достижения CSV.
df = pd.read_csv("preprocessed_data.csv")
len(df)
# out: 318477
spark_df = spark.read.format("csv")
.option("header", "true")
.option("mode", "DROPMALFORMED")
.load("preprocessed_data.csv")
spark_df.count()
# out: 6422020
df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()
# out: 6422020
Я не могу понять, почему он неправильно читает csv, столбцы выглядят одинаково, когда я их показываю, однако строк слишком много. Поэтому я ищу способ решить эту проблему.