Question

Я пытаюсь проанализировать набор данных размером 500 МБ в Databricks. Эти данные хранятся в файле Excel. Первым делом я установил пакет Spark Excel com.crealytics.spark.excel из Maven (последняя версия - 0.11.1).

Это параметры кластера:

Затем я выполнил следующий код в блокноте Scala:

val df_spc = spark.read
          .format("com.crealytics.spark.excel")
          .option("useHeader", "true")
          .load("dbfs:/FileStore/tables/test.xlsx")

Но я получил ошибку о размере кучи Java, а затем я получил еще одну ошибку "java.io.IOException: Превышен предел издержек GC". Затем я снова выполнил этот код и через 5 минут запустил еще одну ошибку:

Драйвер искры неожиданно остановился и перезапускается. Ваш Блокнот будет автоматически подключен.

Я не понимаю, почему это происходит. На самом деле набор данных достаточно мал для распределенных вычислений, и размер кластера должен быть в порядке для обработки этих данных. Что я должен проверить, чтобы решить это?

Драйвер свечи неожиданно остановился и перезапускается.Ваш блокнот будет автоматически подключен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Драйвер свечи неожиданно остановился и перезапускается.Ваш блокнот будет автоматически подключен

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы