У нас большой набор данных, который мы используем для запроса с помощью spark.
Мы рассматриваем хранение строки JSON в одном столбце, который по сути является набором свойств некоторых свойств.
Вопрос : Будем ли мы сталкиваться с каким-либо значительным влиянием на производительность при выполнении запросов агрегирования для этих свойств, которые хранятся в виде JSON, а не отдельных столбцов?
Я обеспокоен тем, что мы потеряем некоторые преимущества эффективного столбцового сжатия / кодирования, если будем использовать строку объекта JSON.
1011 * Е.Г. *
column1 | column2
-----------------
1 | {"property1":2,"property2":3}
против
column1 | property1 | property2
--------------------------------
1 | 2 | 3