Я запускаю этот код в pyspark, и разница в выводе между описанием и printSchema сбивает с толку. пожалуйста, взгляните на код ниже.
Описание () дает столбец оценки в виде строки, где, когда я описываю без скобок или использую printSchema (), тогда он дает столбец оценки в виде int - который он на самом деле.
Это мой фрейм данных.
>>> df.show()
+-------+------+-----+
| name|course|score|
+-------+------+-----+
| fsdhfu| a| 56|
| sdjjfd| a| 57|
|kljsjlk| b| 23|
| udjkx| b| 89|
| ias| c| 36|
| jksdkj| c| 37|
| usdkj| d| 48|
+-------+------+-----+
Использование description:
>>> df2.describe()
DataFrame[summary: string, name: string, course: string, score: string]
>>> df2.describe
<bound method DataFrame.describe of DataFrame[name: string, course: string, score: int]>
Использование printSchema:
>>> df2.printSchema()
root
|-- name: string (nullable = true)
|-- course: string (nullable = true)
|-- score: integer (nullable = true)