Влияние Spark на столбцы JSON и столбцы - PullRequest
0 голосов
/ 26 января 2019

У нас большой набор данных, который мы используем для запроса с помощью spark.

Мы рассматриваем хранение строки JSON в одном столбце, который по сути является набором свойств некоторых свойств.

Вопрос : Будем ли мы сталкиваться с каким-либо значительным влиянием на производительность при выполнении запросов агрегирования для этих свойств, которые хранятся в виде JSON, а не отдельных столбцов?

Я обеспокоен тем, что мы потеряем некоторые преимущества эффективного столбцового сжатия / кодирования, если будем использовать строку объекта JSON.

1011 * Е.Г. *

column1 | column2
-----------------
1       | {"property1":2,"property2":3}

против

column1 | property1 | property2
--------------------------------
1       | 2         | 3
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...