Как применить формат даты в pyspark SQL - PullRequest
0 голосов
/ 23 января 2020

мы получаем данные ниже pyspark sql запрос

enter image description here

Script ::

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('yarn').appName('myAppName').getOrCreate()
df = spark.read.parquet('gs://data/test')
df.createOrReplaceTempView("people")

df2=spark.sql("""select id,concat(year(dates) ,'_',month(dates)) as date,
    count(1) count
    from people
group by id, month(dates),year(dates)

и ожидаемый результат is

enter image description here

как 2019_jan, 2019_feb, 2019_oct, .... 2019_Dec Пожалуйста, помогите мне с синтаксисом формата даты в pyspark sql

1 Ответ

1 голос
/ 23 января 2020

Вы можете попробовать, как показано ниже

spark.sql("select date_format(current_date(),'MMM') as month from data")

Ваш полный запрос должен выглядеть следующим образом

from pyspark.sql.functions import *

df2=spark.sql("""select id,concat(year(dates) ,'_',date_format(dates,'MMM')) as date,
    count(1) count from people group by id, date_format(dates,'MMM'),year(dates)
...