В этом посте уже есть отличный момент (ссылка ниже), однако мне было интересно, если кто-нибудь знает, как расширить его до случая, когда у вас есть (K, [V1, V2]), то есть несколько значений длятот же ключ.Как я могу использовать aggregateByKey для вычисления среднего значения для каждого из столбцов значений?
Для большего контекста у меня есть RDD, которые выглядят так:
Расчет средних значений для каждого KEY впопарно (K, V) СДР в Spark с Python
(UserId, [FacebookCommentCount, FacebookLikes])
(213234, [ 23, 2])
(456784, [ 14, 5])
(769543, [ 34, 9])
(453256, [ 43, 8])
:
:
: