Я хочу прочитать данные Excel, которые содержат 800 тыс. Записей и 230 столбцов. Я прочитал данные, используя фрейм данных spark и pandas, но при чтении данных, используя фрейм данных spark, я получаю следующее сообщение.
Сообщение. Драйвер свечи неожиданно остановился и перезапускается. Ваш блокнот будет автоматически подключен.
Я использовал приведенный ниже код, используя искру.
df=spark.read.format("com.crealytics.spark.excel").option("useheader","true").option("treatEmptyValuesAsNulls","true").option("inferSchema", "true").option("addColorColumns", "False").option("location","/dbfs/FileStore/test/abc.xlsx").load()
Using scala:
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.DataFrame
def readExcel(file: String): DataFrame = sqlContext.read
.format("com.crealytics.spark.excel")
.option("location", file)
.option("useHeader", "true")
.option("treatEmptyValuesAsNulls", "true")
.option("inferSchema", "true")
.option("addColorColumns", "False")
.load()
val data = readExcel("/dbfs/test/abc.xlsx")
data.show(false)