Я работаю над проектом PySpark в PyCharm IDE. Чтобы использовать Spark в проекте, я сделал следующие вещи:
- Настройки -> Структура проекта -> CMD + SHIFT + G и дал библиотеку DIR PySpark для связи моего проекта со Spark.
- Project Interpreter -> Выбор 3,7 Python Interpreter
Мой проект выглядит как снимок экрана ниже:
Это код в моем проекте:
from pyspark import SparkConf
from pyspark.sql import SparkSession
import psycopg2
def get_interface_log_ids(spark):
idf = spark.read.format("jdbc").option("url","").option("user","user").option("password","pwd")option("dbtable",f"select target_table from schema.table where source_system_name='SSS' and transfer_status is null and tenant_code='HDFS' order by interface_log_id desc) as controlTableDF").load()
idf.persist("MEMORY_ONLY")
return idf
if __name__ == "__main__":
sparkConf = SparkConf().setAppName("DummyAP")
spark = SparkSession.builder.config(conf=sparkConf).enableHiveSupport().getOrCreate()
Class.forName("org.postgresql.Driver")
get_interface_log_ids(spark)
Теперь я хочу добавить следующие зависимости Had oop в мой проект PySpark:
hadoop-core
hadoop-auth
hadoop-common
Я попытался добавить их, выполнив поиск в project-interepreter как ниже:
Я пытался найти, имел oop зависимостей, но я не мог найти там никаких результатов. Я новичок в Pycharm и Pyspark (из Scala + Spark на SBT). Может кто-нибудь сообщить мне, как добавить внешний jar-файл в мой проект PySpark в PyCharm IDE?