Я получаю OutOFMemoryError и иногда ошибку timed_out в Spark
кластер во время подбора модели с использованием MultinomialNB для файла 250 МБ
My spark cluster: 1 master, 2 worker, each node has 16 GB memory with 8 cores.
Я использую библиотеку spark_sklearn GridSearchCV для подгонки моей модели MultinomialNB. Я пробовал различное количество конфигураций искры в коде. Я читаю файл через HDFS, а также использовал перераспределение для чтения файла
мои текущие конфигурации:
conf = SparkConf (). SetAppName ("SparkFile
App1 ") .setMaster (" искра: //x.x.x.x: 7077" ) .set ( 'spark.executor.memory',
'4G'). Установить ( 'spark.executor.cores', '4'). Установить ( "spark.driver.memory", '5г')
Модель поезда с использованием Spark_sklearn GridSearchCV:
параметры = {'альфа': [0,01, 0,05]}
оценка = многочленNB (альфа = 0,01) clf = GridSearchCV (sc,
оценщик, параметры, n_jobs = -1, cv = 2)
clf.fit (X_train_tfidf, y_train)