Как добавить jar-файлы в pyspark anaconda? - PullRequest
0 голосов
/ 10 сентября 2018
from pyspark.sql import Row

from pyspark import SparkConf, SparkContext

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")

Я установил pyspark через Anaconda и могу импортировать Pyspark в Python Anaconda. Но я не знаю, как добавить файлы JAR в conf.

Я пытался

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')

но это не работает. Любой правильный способ добавить файл JAR здесь?

1 Ответ

0 голосов
/ 10 сентября 2018

документы говорят:

spark.jars.packages: разделенный запятыми список Maven-координат jar для включения в пути к классам драйвера и исполнителя. Координаты должны быть groupId: artifactId: версия. Если указан spark.jars.ivySettings, артефакты будут разрешены в соответствии с конфигурацией в файле, в противном случае артефакты будут искать в локальном репозитории maven, затем в maven central и, наконец, в любых дополнительных удаленных репозиториях, заданных параметром командной строки - хранилища. Для получения дополнительной информации см. Расширенное управление зависимостями.

Вместо этого вы должны просто использовать spark.jars:

spark.jars: разделенный запятыми список jar-файлов для включения в пути к классам драйверов и исполнителей. Глобусы разрешены.

Итак:

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")\
     .set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...