У меня есть файл CSV, который хранится в формате hdf в следующем формате:
Business Line,Requisition (Job Title),Year,Month,Actual (# of Days)
Communications,1012_Com_Specialist,2017,February,150
Information Technology,5781_Programmer_Associate,2017,March,80
Information Technology,2497_Programmer_Senior,2017,March,120
Services,6871_Business_Analyst_Jr,2018,May,33
Я хотел бы получить среднее значение за фактическое (количество дней) по году и месяцу.Может кто-нибудь помочь мне, как я могу сделать это с помощью Pyspark и сохранить результаты в файле Parquet?