Изменить : Предыдущая проблема была решена путем указания аргумента multiLine
на True
в функции spark.read.csv
. Однако я обнаружил другую проблему при использовании функции spark.read.csv
.
Другая проблема, с которой я столкнулся, была связана с другим файлом csv в том же наборе данных, как описано в вопросе. Это набор данных обзора с сайта insideairbnb.com.
Файл csv выглядит следующим образом:
:
Но результат функции read.csv объединил несколько строк вместе и сгенерировал странный формат: ![enter image description here](https://i.stack.imgur.com/XLqPO.png)
Есть мысли? Спасибо за ваше время.
Следующая проблема была решена путем указания аргумента multiLine
в функции spark.read.csv
. Причина root заключалась в том, что в одном из столбцов было \r\n\n\r
строк, которые функция обрабатывала как разделитель строк вместо строки
Я попытался загрузить большой файл CSV в искру dataframe с использованием PySpark.
listings = spark.read.csv("listings.csv")
# Loading to SparkSession
listings.createOrReplaceTempView("listings")
Когда я попытался взглянуть на результат, используя Spark SQL со следующим кодом:
listing_query = "SELECT * FROM listings LIMIT 20"
spark.sql(listing_query).show()
, я получил следующий результат: ![The output of the Spark SQL query with mismatched columns](https://i.stack.imgur.com/r6dtR.png)
Что очень странно, учитывая, что чтение csv с pandas выводит правильный формат таблицы без несоответствующего столбца.
Есть идеи о том, что вызвало эту проблему и как ее исправить?