HiveContext не хранит конфиденциальность SparkContext - PullRequest
0 голосов
/ 03 января 2019

Я не могу настроить память исполнителя и драйвера.

 from pyspark import SparkContext, SparkConf
 from pyspark.sql import HiveContext  

 conf = pyspark.SparkConf().setAll([('spark.executor.memory', '2g'),('spark.driver.memory','2g')])
 sc.stop() 

 sc = pyspark.SparkContext(conf=conf)
 sc._conf.getAll()
 hc = HiveContext(sc)
 sc._conf.getAll()

Когда sc._conf.getAll() запускается до hc = HiveContext(sc), я вижу, что мои воспоминания были скорректированы по мере необходимости. Однако, когда sc._conf.getAll() запускается после hc = HiveContext(sc), память возвращается к значению по умолчанию.

1 Ответ

0 голосов
/ 03 января 2019

Если возможно, используйте SparkSession (доступно начиная с Spark 2.0) вместо SparkContext, поэтому вы можете добавить конфигурации в .conf

from pyspark.sql import SparkSession
warehouseLocation = "/hive/user/location"
spark2 = SparkSession\
.builder.appName("SparkAppName")\
.config("spark.sql.warehouse.dir", warehouseLocation)\
.config("spark.executor.memory", "2g")\
.config("spark.executor.executor", "3g")\
.enableHiveSupport()\
.getOrCreate()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...