Я хотел бы создать файл паркета с очень специфической c схемой, используя сверло apache. Я объединяю две таблицы с CTAS, например:
CREATE TABLE synthetic1 AS (
SELECT e1.returneddocids AS returneddocids, e1.pathinfo AS pathinfo, c1.counters AS counters
FROM dfs.`/tmp/tier1.parquet` e1 LEFT JOIN dfs.tmp.shadow3 c1 ON TRUE LIMIT 100
);
Полученная схема файла выглядит следующим образом:
message root {
optional group returneddocids {
repeated group list {
optional binary element (UTF8); // need this one as required, not optional
}
}
optional binary pathinfo (UTF8);
optional group counters {
repeated group list {
optional group element { // need this as required
optional binary name (UTF8); // need this as required
optional int32 value; // need this as required
}
}
}
}
Интересно, как настроить запрос CTAS, чтобы optional
элементы, указанные выше, были изменены до required
?