Как читать объемные данные из файла Excel и загружать их в спрей данных в Databricks - PullRequest
0 голосов
/ 04 июня 2019

Я хочу прочитать данные Excel, которые содержат 800 тыс. Записей и 230 столбцов. Я прочитал данные, используя фрейм данных spark и pandas, но при чтении данных, используя фрейм данных spark, я получаю следующее сообщение.

Сообщение. Драйвер свечи неожиданно остановился и перезапускается. Ваш блокнот будет автоматически подключен.

Я использовал приведенный ниже код, используя искру.

df=spark.read.format("com.crealytics.spark.excel").option("useheader","true").option("treatEmptyValuesAsNulls","true").option("inferSchema", "true").option("addColorColumns", "False").option("location","/dbfs/FileStore/test/abc.xlsx").load()

Using scala:

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.DataFrame
def readExcel(file: String): DataFrame = sqlContext.read
   .format("com.crealytics.spark.excel")
   .option("location", file)
   .option("useHeader", "true")
   .option("treatEmptyValuesAsNulls", "true")
   .option("inferSchema", "true")
   .option("addColorColumns", "False")
   .load()

val data = readExcel("/dbfs/test/abc.xlsx")
data.show(false)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...