pyspark: Java ошибка пространства кучи, возникшая после изменения параметра StringIndexer "handleInvalid" на "skip" - PullRequest
0 голосов
/ 20 апреля 2020

Я работаю над приложением машинного обучения (использующим pycharm), и все работает отлично.

Но spark выдает эту java ошибку кучи, когда я решил изменить параметр HandlInvalid.

Exception in thread "dispatcher-event-loop-1" java.lang.OutOfMemoryError: Java heap space
.....
.....
ERROR Utils: Uncaught exception in thread driver-heartbeater
java.lang.OutOfMemoryError: Java heap space
.....
.....
py4j.protocol.Py4JJavaError: An error occurred while calling o6473.fit.
: java.lang.OutOfMemoryError: Java heap space

И когда я пытаюсь изменить файл driver.memory, я получаю эту ошибку:

Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.
Invalid maximum heap size: -Xmx5g
The specified size exceeds the maximum representable size.

вот мой сеанс искры:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Ope inp').master('local')\
    .config("spark.driver.memory", "5g")\
    .enableHiveSupport().getOrCreate()

, цитируемый apache .spark.config:

Примечание. В режиме клиента эту конфигурацию нельзя устанавливать через SparkConf непосредственно в приложении, поскольку в этот момент JVM драйвера уже запущен. Вместо этого, пожалуйста, установите это с помощью параметра командной строки --driver-memory или в вашем файле свойств по умолчанию

как я могу установить driver.memroy и executor. memory config в свойствах файлов, поэтому мне не нужно устанавливать их каждый раз, когда я перезаписываю приложение

...