Как добавить файлы oop jar в проект PySpark на Pycharm? - PullRequest
0 голосов
/ 09 апреля 2020

Я работаю над проектом PySpark в PyCharm IDE. Чтобы использовать Spark в проекте, я сделал следующие вещи:

  1. Настройки -> Структура проекта -> CMD + SHIFT + G и дал библиотеку DIR PySpark для связи моего проекта со Spark.
  2. Project Interpreter -> Выбор 3,7 Python Interpreter

Мой проект выглядит как снимок экрана ниже: enter image description here

Это код в моем проекте:

from pyspark import SparkConf
from pyspark.sql import SparkSession
import psycopg2 

def get_interface_log_ids(spark):
    idf = spark.read.format("jdbc").option("url","").option("user","user").option("password","pwd")option("dbtable",f"select target_table from schema.table where source_system_name='SSS' and transfer_status is null and tenant_code='HDFS' order by interface_log_id desc) as controlTableDF").load()
    idf.persist("MEMORY_ONLY")
    return idf


if __name__ == "__main__":
    sparkConf = SparkConf().setAppName("DummyAP")
    spark = SparkSession.builder.config(conf=sparkConf).enableHiveSupport().getOrCreate()
    Class.forName("org.postgresql.Driver")
    get_interface_log_ids(spark)

Теперь я хочу добавить следующие зависимости Had oop в мой проект PySpark:

hadoop-core
hadoop-auth
hadoop-common

Я попытался добавить их, выполнив поиск в project-interepreter как ниже: enter image description here

Я пытался найти, имел oop зависимостей, но я не мог найти там никаких результатов. Я новичок в Pycharm и Pyspark (из Scala + Spark на SBT). Может кто-нибудь сообщить мне, как добавить внешний jar-файл в мой проект PySpark в PyCharm IDE?

...