Получение timed_out и иногда MemoryError в spark_cluster во время подгонки модели - PullRequest
0 голосов
/ 11 мая 2019

Я получаю OutOFMemoryError и иногда ошибку timed_out в Spark кластер во время подбора модели с использованием MultinomialNB для файла 250 МБ

My spark cluster: 1 master, 2 worker, each node has 16 GB memory with 8 cores.

Я использую библиотеку spark_sklearn GridSearchCV для подгонки моей модели MultinomialNB. Я пробовал различное количество конфигураций искры в коде. Я читаю файл через HDFS, а также использовал перераспределение для чтения файла

мои текущие конфигурации:

conf = SparkConf (). SetAppName ("SparkFile App1 ") .setMaster (" искра: //x.x.x.x: 7077" ) .set ( 'spark.executor.memory', '4G'). Установить ( 'spark.executor.cores', '4'). Установить ( "spark.driver.memory", '5г')

Модель поезда с использованием Spark_sklearn GridSearchCV:

параметры = {'альфа': [0,01, 0,05]}

оценка = многочленNB (альфа = 0,01) clf = GridSearchCV (sc, оценщик, параметры, n_jobs = -1, cv = 2)

clf.fit (X_train_tfidf, y_train)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...