Question

Я новичок в pySpark. Я пытаюсь получить последний раздел (раздел даты) таблицы улья, используя PySpark-dataframes и сделал, как показано ниже. Но я уверен, что есть лучший способ сделать это, используя функции dataframe (не написав SQL). Не могли бы вы поделиться мнениями о лучших путях.

Это решение сканирует все данные в таблице Hive, чтобы получить их.

df_1 = sqlContext.table("dbname.tablename");

df_1_dates = df_1.select('partitioned_date_column').distinct().orderBy(df_1['partitioned_date_column'].desc())

lat_date_dict=df_1_dates.first().asDict()

lat_dt=lat_date_dict['partitioned_date_column']

pyspark - получение последнего раздела из логики многораздельных столбцов Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark - получение последнего раздела из логики многораздельных столбцов Hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы