настройка в памяти представления данных в искре (локальность данных) - PullRequest
0 голосов
/ 03 апреля 2019

У меня есть сценарий использования, в котором я бы предпочел, чтобы все подключенные данные (для одного пользователя) находились на одном узле.

С https://github.com/twosigma/flint Я знаю, что пользовательская схема памяти возможна, но требуетдовольно много усилий.С другой стороны, collect_list в сочетании с sort_array из struct-type может быть весьма удобным, но это проблема в случае перекоса данных.

Есть ли что-то среднее с немного большим контролем, номеньше вопросов, касающихся перекоса данных?Мне известно, что оконная функция может вызывать определенный порядок, но это приводит к гораздо большему перемешиванию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...