Наши данные хранятся с использованием s3://bucket/YYYY/MM/DD/HH
, и мы используем пожарную часть aws для посадки данных о паркетах в этих местах в режиме реального времени.Я могу запросить данные с помощью AWS athena, но у нас есть кластер запросов улья, который создает проблемы при запросе данных при включенном разделении.
Это то, что я делаю: PARTITIONED BY (
`year` string,
`month` string,
`day` string,
`hour` string)
Это не работает, когда данные на s3 хранятся как s3:bucket/YYYY/MM/DD/HH
, однако это работает дляs3:bucket/year=YYYY/month=MM/day=DD/hour=HH
Принимая во внимание строгие контуры пожарного рукава, я не могу изменить пути s3.Поэтому мой вопрос в том, какова правильная схема разбиения в hive ddl, если у вас нет явно определенного имени столбца в вашем пути к данным, например year
= или month
=?