У меня ниже JSON-файл (подробности) в hadoop.Я могу читать этот файл с hd fs с помощью SQL Context read json.Затем нужно разбить файл на количество файлов в зависимости от даты и добавить дату к имени файла (в файле может быть любое количество дат).
Имя входного файла: подробности
{"Name": "Pam", "Address": "", "Gender":"F", "Date": "2019-09-27 06:47:57"}
{"Name": "David", "Address": "", "Gender":"M", "Date": "2019-09-27 10:47:56"}
{"Name": "Mike", "Address": "", "Gender":"M", "Date": "2019-09-26 08:48:57"}
ожидаемые выходные файлы:
Имя файла 1: подробности_20190927
{"Name": "Pam", "Address": "", "Gender":"F", "Date": "2019-09-27 06:47:57"}
{"Name": "David", "Address": "", "Gender":"M", "Date": "2019-09-27 10:47:56"}
Имя файла 2: подробности_20190926
{"Name": "Mike", "Address": "", "Gender":"M", "Date": "2019-09-26 08:48:57"}