У меня есть вопрос о том, как передать две даты в качестве аргументов через
spark-submit и должен использоваться кодом.
spark-submit gis.py '2019-03-04' '2019-03-07'
Использовали следующую искру отправки, дата - строка в таблице
from pyspark.sql import sparksession
from pyspark.sql import functions as F
from pyspark import HiveContext
hiveContext= HiveContext(sc)
start_date=arg1
end_dater =arg2
def UDF_df(i):
print(i[0])
ABC2 = spark.sql(
"select * From A where day ='{0}'".format(i[0])
)
Join = ABC2.join(
Tab2,
(
ABC2.ID == Tab2.ID
)
).select(
Tab2.skey,
ABC2.Day,
ABC2.Name,
ABC2.Description
)
Join.select(
"Tab2.skey",
"ABC2.Day",
"ABC2.Name",
"ABC2.Description"
).write.mode("append").format("parquet").insertinto("Table")
ABC=spark.sql(
"select distinct day from A where day>= start_date and day<=end_date"
)
Tab2=spark.sql("select * from B where day is not null")
for in in ABC.collect():
UDF_df(i)
Above code isn't taking arg 1 & 2 and is thus resulting in an error