Vertica HDFS в качестве внешнего стола - PullRequest
1 голос
/ 04 июня 2019

Какова лучшая практика для работы с Vertica и Parquet

Моя архитектура приложения: Kafka Topic (Avro Data).Vertica DB.Планировщик Vertica использовал данные из Kafka и поместил их в управляемую таблицу в Vertica.

Допустим, у меня есть хранилище Vertica только на один месяц данных.Насколько я понял, я могу создать внешнюю таблицу в HDFS, используя паркет, и Vertica API позволяет мне также запрашивать эти таблицы.Какова лучшая практика для этого сценария?Могу ли я добавить планировщик Vertica для копирования даты из управляемых таблиц во внешние таблицы (как паркет).как настроить скользящие данные в Vertica (отбрасывается 30 дней назад каждый день) Спасибо.

1 Ответ

0 голосов
/ 04 июня 2019

Вы можете использовать внешние таблицы с данными Parquet, независимо от того, были ли эти данные когда-либо в Vertica или получены из какого-либо другого источника.В частности, для форматов Parquet и ORC есть некоторые дополнительные функции , такие как предикатное нажатие и использование столбцов разделов.

Вы можете экспортировать данные в Vertica в формат Parquet ,Вы можете экспортировать результаты запроса, поэтому вы можете выбрать только данные за 30 дней.И несмотря на то, что этот раздел находится в разделе Hadoop документации Vertica, вы можете написать свои файлы Parquet где угодно;вам вообще не нужно запускать HDFS.Просто это должно быть где-то, чего могут достичь все узлы в вашей базе данных, потому что внешние таблицы читают данные во время запроса.

Я не знаю способа выполнения запланированных экспортов in-Vertica, но вы могли бынаписать сценарий и запустить его ночью.Вы можете запустить скрипт .sql из командной строки, используя vsql -f filename.sql.

...