Как передать зависимые JAR-файлы в EMR Cluster при создании с использованием скрипта Python - PullRequest
0 голосов
/ 17 сентября 2018

Ниже код прекрасно работает и генерирует JSON по пути локальной файловой системы кластера EMR (закомментированная строка). Но тот же самый JSON, когда я хочу сохранить в моем S3-контейнере, мне нужно передать Ojdbc.jar и emrfs-hadoop-assembly-2.18.0.jar во время искровой отправки, здесь также он работает нормально.
Но теперь Iautomated создал кластер с использованием скрипта Python и запустил кластер, выполнив py-файл, но вышеупомянутые 2 jars, как передать в скрипте python. Без прохождения я не могу хранить в S3. Пожалуйста, помогите ...

import cx_Oracle
import pandas as pd
from pyspark.shell import spark

conn = cx_Oracle.connect(user='username', password='pwd', dsn='dnslocal:1521/ourdb')
sql = "select * from EMP where OPERATOR = 12345"
curs = conn.cursor()
res = curs.execute(sql)
rows = res.fetchall()
pdDf = pd.DataFrame(rows, index=None, columns=None)
#pdDf.to_json("/home/hadoop/jsonFromCXOracle2.json")
pdDf.to_json("s3://myBucket/jsonFromcxoracle1.json")
...