У меня есть несколько сложных сложных файлов CSV в hdfs, каждый файл имеет одинаковую структуру, в начале некоторые комментарии, а затем мой заголовок начинается с #this_is_begining_header text / word.столбцы заголовка отделяются запятой, а заголовок заканчивается текстом / словом #this_is_end_of_header, после текста / слова #this_is_end_of_header следует некоторый текст с оператором, разделенным запятыми (который фактически является информацией для поиска и заканчивается информацией #end_of_look_up, затем файлом данных.Так как я могу загрузить это в существующую таблицу кустов, еще одна проблема в моей существующей таблице может иметь 5 столбцов, и каждый день список новых файлов может иметь 7/8 столбцов, на следующий день список файлов может иметь 9/10столбцы, так что каждый день на самом деле количество столбцов будет увеличиваться (в течение одного дня все файлы имеют одинаковую структуру) Структура файла: -
this is blala fddjsjsddsjcjsdkcdccdjdjddkjcdkjc use less info--------
#this_is_begining_header col1,
col2, col3,col4,cl5,col6,col8
#this_is_end_of_header
col-1_means_name,col-2_means_age,col-3_means_loadtime,col-4_means_orig_city,col5_means_state,col6_means_gender,col7_means_originatedfrom #end_of_look_up
john,32,01-01-2007,manhattan,ny,male,colorado
Robert,33,01-01-2008,matawann,nJ,male,Texas
Steve,39,01-01-2009,pittsburgh,PA,male,newmexico
Я только что написал: -
val spark=Sparksession.builder.master("local[2]").appName("aaa").enableHiveSupport().getOrCreate()
val loadfile=spark.read.format("csv").option("header","false").load("hdfs://jjjjjj/c/a/")