Hive - внешние таблицы и данные csv - PullRequest
0 голосов
/ 03 мая 2020

Мне нужна некоторая помощь от вас, чтобы понять, как восстановить данные из улья. Следующая ситуация: у меня есть файл CSV, в который импортированы данные data.csv oop. Теперь я нашел много фрагментов, которые используют внешнюю таблицу для создания схемы поверх файла CSV. У меня вопрос, откуда куст знает, что схема внешней таблицы связана с data.csv. В примерах я не могу найти ссылку на файл csv.

Где ссылка sample_1.csv для использования в в этом примере улья или как куст узнает, что данные из sample_1.csv включают данные

Ответы [ 2 ]

1 голос
/ 03 мая 2020

При создании внешней таблицы мы должны указать список столбцов и расположение hdfs. Hive будет хранить только метаданные столбца, такие как имя столбца, тип данных .. и расположение hdfs.

Когда мы выполняем запрос к внешней таблице, он будет извлекать метаданные, а затем извлекать доступные файлы из местоположения hdfs.

0 голосов
/ 04 мая 2020

теперь у нас есть ответ. Руководство рекомендует хранить один файл в одном каталоге. Когда мы затем строим внешнюю таблицу сверху, кажется, что данные не идентифицированы схемой.

В моем тестовом примере я импортировал 3 файла CSV с одной схемой. 2 файла получили соответствующую схему. Третий файл получил еще один столбец. Если я запускаю запрос, отображаются данные всех трех файлов. Дополнительный столбец из третьего файла отсутствует.

Теперь все хорошо - спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...