PySpark вызвал несоответствие столбца при чтении из csv - PullRequest
1 голос
/ 07 мая 2020

Изменить : Предыдущая проблема была решена путем указания аргумента multiLine на True в функции spark.read.csv. Однако я обнаружил другую проблему при использовании функции spark.read.csv.

Другая проблема, с которой я столкнулся, была связана с другим файлом csv в том же наборе данных, как описано в вопросе. Это набор данных обзора с сайта insideairbnb.com.

Файл csv выглядит следующим образом: The csv file looks like this:

Но результат функции read.csv объединил несколько строк вместе и сгенерировал странный формат: enter image description here

Есть мысли? Спасибо за ваше время.


Следующая проблема была решена путем указания аргумента multiLine в функции spark.read.csv. Причина root заключалась в том, что в одном из столбцов было \r\n\n\r строк, которые функция обрабатывала как разделитель строк вместо строки

Я попытался загрузить большой файл CSV в искру dataframe с использованием PySpark.

listings = spark.read.csv("listings.csv")

# Loading to SparkSession
listings.createOrReplaceTempView("listings")

Когда я попытался взглянуть на результат, используя Spark SQL со следующим кодом:

listing_query = "SELECT * FROM listings LIMIT 20"

spark.sql(listing_query).show()

, я получил следующий результат: The output of the Spark SQL query with mismatched columns

Что очень странно, учитывая, что чтение csv с pandas выводит правильный формат таблицы без несоответствующего столбца.

Есть идеи о том, что вызвало эту проблему и как ее исправить?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...