Я пытаюсь проанализировать набор данных размером 500 МБ в Databricks. Эти данные хранятся в файле Excel. Первым делом я установил пакет Spark Excel com.crealytics.spark.excel
из Maven (последняя версия - 0.11.1).
Это параметры кластера:
Затем я выполнил следующий код в блокноте Scala:
val df_spc = spark.read
.format("com.crealytics.spark.excel")
.option("useHeader", "true")
.load("dbfs:/FileStore/tables/test.xlsx")
Но я получил ошибку о размере кучи Java, а затем я получил еще одну ошибку "java.io.IOException: Превышен предел издержек GC". Затем я снова выполнил этот код и через 5 минут запустил еще одну ошибку:
Драйвер искры неожиданно остановился и перезапускается. Ваш
Блокнот будет автоматически подключен.
Я не понимаю, почему это происходит. На самом деле набор данных достаточно мал для распределенных вычислений, и размер кластера должен быть в порядке для обработки этих данных. Что я должен проверить, чтобы решить это?