Ошибка в фрейме данных pyspark после Pandas csv - PullRequest
1 голос
/ 05 августа 2020

У меня есть фрейм данных в pyspark.sql.dataframe.DataFrame, я преобразовал его в pandas фрейм данных, а затем сохранил как файл csv. Здесь, в csv, при открытии я обнаружил, что столбцы с пустыми значениями в поле становятся \"\". Я go возвращаюсь к искровому кадру данных. To Pandas () когда я проверяю одно из значений этих столбцов, я вижу эту пустую строку с пробелом. dfpandas.colX[2] дайте это res: ' '.

Я использовал этот вид сохранения csv.

df_sparksql.repartition(1).write.format('com.databricks.spark.csv').save("/data/rep//CLT_20200729csv",
                                                                             header = 'true',)

Я также использовал этот метод сохранения, но это привело к отключению памяти.

df = df_per_mix.toPandas()
df.to_csv("/data/rep//CLT_20200729.csv",sep=";", index=False)

В чем проблема и как удалить пустое пространство, преобразованное в \"\"?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...