Question

Я пытаюсь прочитать CSV-файл в PySpark DataFrame. Однако по какой-то причине методы загрузки PySpark CSV загружают значительно больше строк, чем ожидалось.

Я пытался использовать как метод spark.read, так и метод spark.sql для достижения CSV.

df = pd.read_csv("preprocessed_data.csv")
len(df)

# out: 318477

spark_df = spark.read.format("csv")
                     .option("header", "true")
                     .option("mode", "DROPMALFORMED")
                     .load("preprocessed_data.csv")
spark_df.count()

# out: 6422020

df_test = spark.sql("SELECT * FROM csv.`preprocessed_data.csv`")
df_test.count()

# out: 6422020

Я не могу понять, почему он неправильно читает csv, столбцы выглядят одинаково, когда я их показываю, однако строк слишком много. Поэтому я ищу способ решить эту проблему.

Francesco Boi · Answer 1 · 22 мая 2019

Вы можете попробовать следующее.Я предполагаю, что у вашего CSV есть строка заголовка.

fileName = "my.csv"
sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)
df = sqlContext.read.csv(fileName, header=True, inferSchema=True)

PySpark Чтение CSV чтения неправильно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PySpark Чтение CSV чтения неправильно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов