Я новичок в pySpark.
Я пытаюсь получить последний раздел (раздел даты) таблицы улья, используя PySpark-dataframes и сделал, как показано ниже.
Но я уверен, что есть лучший способ сделать это, используя функции dataframe (не написав SQL). Не могли бы вы поделиться мнениями о лучших путях.
Это решение сканирует все данные в таблице Hive, чтобы получить их.
df_1 = sqlContext.table("dbname.tablename");
df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())
lat_date_dict=df_1_dates.first().asDict()
lat_dt=lat_date_dict['partitioned_date_column']