Проблема вызвана тем фактом, что ваши файлы Excel содержат либо столбцы с разными типами внутри (например, числа и строки), либо некоторые значения пусты, и поэтому, превращая его в кадр данных panda, он заполняет пробел с помощью «NaN» для числового столбца, например. Которые вызывают искру к ошибке, когда не в состоянии вывести схему.
Попробуйте создать кадр данных со схемой в качестве аргумента.
Exemple:
#Create PySpark DataFrame Schema
p_schema = StructType([StructField('ADDRESS',StringType(),True),StructField('CITY',StringType(),True),StructField('FIRSTNAME',StringType(),True),StructField('LASTNAME',StringType(),True),StructField('PERSONID',DecimalType(),True)])
#Create Spark DataFrame from Pandas
df_person = sqlContext.createDataFrame(data, p_schema)
Но я бы порекомендовал использовать специальный пакет, который обрабатывает прямую загрузку файлов Excel в фрейм данных Spark, не проходя через Panda:
https://github.com/crealytics/spark-excel