У меня есть сценарий использования, в котором я бы предпочел, чтобы все подключенные данные (для одного пользователя) находились на одном узле.
С https://github.com/twosigma/flint Я знаю, что пользовательская схема памяти возможна, но требуетдовольно много усилий.С другой стороны, collect_list
в сочетании с sort_array
из struct-type
может быть весьма удобным, но это проблема в случае перекоса данных.
Есть ли что-то среднее с немного большим контролем, номеньше вопросов, касающихся перекоса данных?Мне известно, что оконная функция может вызывать определенный порядок, но это приводит к гораздо большему перемешиванию.