У меня много qsns внутри этой ситуации. Итак, вот что:
Кто-нибудь когда-нибудь записывал вывод Кафки в корзину Google Cloud Storage (GCS), так что данные в этой корзине разбиты с использованием «макета разметки кустов по умолчанию»? Внешняя таблица должна быть «запрашиваемой» в документации Google BigQuery, которая здесь есть, но она хотела посмотреть, есть ли у кого-нибудь пример (https://cloud.google.com/bigquery/docs/hive-partitioned-queries-gcs)
, например, в документации сказано: «файлы следуют компоновка по умолчанию с парами ключ / значение, размеченными как каталоги со знаком = в качестве разделителя, и ключи секционирования всегда в одном и том же порядке. "
Что не ясно, так это: а) Кафка создает эти каталоги на лету ИЛИ я должен предварительно создать их? Допустим, я ХОЧУ, чтобы KAFKA записывал в каталоги на основе даты в GCS
gs://bucket/table/dt=2020-04-07/
Сегодня вечером, после полуночи, я должен предварительно создать этот новый каталог gs: // bucket / table / dt = 2020- 04-08 / или МОЖЕТ Кафка создать его для меня И во всем этом, как мне помогает разделение кустов LAYOUT?
Нужно ли иметь данные моей таблицы, которые я пытаюсь вставлять в эти каталоги каждый день? "dt" (из gs: // bucket / table / dt = 2020-04-07 /) в качестве столбца в нем?
Так как цель всего этого - запросить BigQuery к этой внешней таблице, которая лежит в основе ссылается на все данные в этом сегменте, т.е.
gs://bucket/table/dt=2020-04-06/
gs://bucket/table/dt=2020-04-07/
gs://bucket/table/dt=2020-04-08/
Просто пытаюсь понять, будет ли это правильным подходом.