как читать файл xlsx с помощью pyspark без помощи pandas - PullRequest
0 голосов
/ 01 августа 2020

Я использую этот код для чтения файла XLSX в моем локальном P C. но я не смог прочитать этот файл, и я также использую библиотеку com.crealytics.spark.excel.

sc = SparkContext.getOrCreate()
sqlContext = SQLContext(sc)

spark = SparkSession.builder \
    .appName("test") \
    .master("local[0]") \
    .getOrCreate()

empFile = "C:/Users/Dev/Downloads/SAMPLE.xlsx"

employeesDF = sqlContext.read.format("com.crealytics.spark.excel").option("sheetName", "Sheet1").option("useHeader", "true").option("treatEmptyValuesAsNulls", "false").option("inferSchema", "false").option("location", empFile).option("addColorColumns", "False").load()

employeesDF.createOrReplaceTempView("EMP")

expLevel = sqlContext.sql("Select * from EMP")
expLevel.show()

если я запустил этот код, я получил такую ​​ошибку

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o35.load. : java .lang.NoClassDefFoundError: scala / Product $ class

...