У меня есть таблица с именем result_25.Я использую этот код для успешного экспорта данных в csv на моем диске.
result_25.toPandas().to_csv('mycsv.csv')
Чтобы проверить, правильно ли я сохраняю файл, я снова прочитал таблицу с этим кодом:
rr = spark.read.csv('mycsv.csv', inferSchema=True, header=True)
Я проверил данные, все выглядело нормально.
rr & result_25 набор данных
Но когда я проверил свой result_25 и rr с помощью .describe (). Show(), они показывают по-разному (я ожидал, что они были одинаковыми).
result_25 и rr description ()
И когда я сгруппировал по «предсказанию», онибыли еще более разными.
р-р
result_25
Что здесь не так?Кто-нибудь может мне помочь?Спасибо !!!