В РСУБД мы обычно используем цифру c столбцов для ключей (как внешних, так и первичных), поскольку это позволяет повысить объединенный запрос производительность и уменьшить использование ресурсов в в большинстве случаев, чем другие типы данных (например, строки).
Вопрос в том, какой тип данных должен быть выбран для ключевых столбцов в таблицах Паркет ? Можем ли мы go вот так:
SELECT * FROM parquet_table1 JOIN parquet_table2 ON t1_string_pk = t2_string_fk
Какая здесь лучшая практика?
Причина этого вопроса в том, что при загрузке данных в хранилище данных любой ключевой столбец цифр c (для целевой таблицы) требует поиска в таблице ключей ( [исходная система, ключ источника] -> суррогатный ключ ), а столбец ключа строки - нет; мы можем использовать объединение ключей исходного кода, чтобы получить нам значение суррогатного ключа строки.