Hive - создать таблицу кустов из указанных c данных трех файлов CSV в формате hdf - PullRequest
0 голосов
/ 15 апреля 2020

У меня есть три .csv файла, каждый в отдельном каталоге hdfs. Теперь я хочу создать внутреннюю таблицу Hive с данными из этих трех файлов. Я хочу четыре столбца из первого файла, три столбца из второго файла и два столбца из третьего файла. Первый файл делится столбцом уникального идентификатора со вторым файлом, а третий файл - другим столбцом уникального идентификатора с третьим файлом. оба уникальных идентификатора присутствуют во втором файле; используя эти идентификаторы, я хотел бы использовать left-external-join для создания таблицы.

файл 1: '/directory_1/sub_directory_1/table1_data_on_01_01_2014.csv'
файл 2:' /directory_2/sub_directory_2/table2_data_on_01_01_2014.cscs.
file 3_d_3__D_D_D_D_D_3_D_D_D_3_0 '

содержимое файла 1:

unique_id_1,age,department,reason_of_visit,--more columns--,,,
id_11,entry_12,entry_13,entry_14,--more entries--
id_12,entry_22,entry_23,entry_24,--more entries--
id_13,entry_32,entry_33,entry_34,--more entries--

содержимое файла 2:

unique_id_1,date_of_transaction,transaction_fee,unique_id_2--more columns--,,,
id_11,entry_121,entry_131,id_21,--more entries--
id_12,entry_221,entry_231,id_22,--more entries--
id_13,entry_321,entry_331,id_23,--more entries--

содержимое файла 3:

unique_id_2,diagnosis,gender --more columns--,,,
id_21,entry_141,entry_151,--more entries--
id_22,entry_241,entry_151,--more entries--
id_23,entry_341,entry_151,--more entries--

I Теперь я хочу создать внутреннюю таблицу следующим образом:

unique_id_1 age department reason_of_visit date_of_transaction unique_id_2 transaction_fee diagnosis gender
id_11 entry_12 entry_13 entry_14 entry_121 entry_131 id_21 entry_141 entry_151
id_12 entry_22 entry_23 entry_24 entry_221 entry_231 id_22 entry_241 entry_251
id_13 entry_32 entry_33 entry_34 entry_321 entry_331 id_23 entry_341 entry_251

Как мне сделать sh это?

1 Ответ

2 голосов
/ 16 апреля 2020

@ Naveen Kumar Решение здесь заключается в создании внешних таблиц для ваших 3 источников. Затем создайте объединенную внутреннюю таблицу со схемой для нужных вам столбцов из 3 источников. Я называю эти временные или промежуточные столы. После того, как эти промежуточные таблицы созданы, вы сможете выбрать объединенный выбор как INSERT INTO комбинированная_таблица SELECT ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...