Вычисление средних значений для каждого KEY в парном (K, V) СДР в Spark с Python (с несколькими значениями) - PullRequest
0 голосов
/ 24 февраля 2019

В этом посте уже есть отличный момент (ссылка ниже), однако мне было интересно, если кто-нибудь знает, как расширить его до случая, когда у вас есть (K, [V1, V2]), то есть несколько значений длятот же ключ.Как я могу использовать aggregateByKey для вычисления среднего значения для каждого из столбцов значений?

Для большего контекста у меня есть RDD, которые выглядят так:

Расчет средних значений для каждого KEY впопарно (K, V) СДР в Spark с Python

(UserId, [FacebookCommentCount, FacebookLikes]) (213234, [ 23, 2]) (456784, [ 14, 5]) (769543, [ 34, 9]) (453256, [ 43, 8]) : : :

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...