Почему я должен преобразовать СДР в ДФ, чтобы записать его как паркет, авро или другие типы?Я знаю, как писать RDD, так как эти форматы не поддерживаются.На самом деле я пытался написать файл паркета с первой строкой, содержащей только дату заголовка и другие строки, содержащие подробные записи.Пример макета файла
2019-04-06
101,peter,20000
102,robin,25000
Я хочу создать паркет с указанным выше содержимым.У меня уже есть файл csv sample.csv с указанным выше содержимым.Файл csv при чтении как фрейм данных содержит только первое поле, так как в первой строке есть только один столбец.
rdd = sc.textFile('hdfs://somepath/sample.csv')
df = rdd.toDF()
df.show()
o / p:
2019-04-06
101
102
Может кто-нибудь помочь мне с преобразованиемвсе содержимое rdd в dataframe.Даже когда я пытаюсь прочитать файл напрямую как df вместо преобразования из rdd, происходит то же самое.