Как получить наиболее распространенные для каждого элемента списка массивов (pyspark) - PullRequest
0 голосов
/ 05 июня 2019

У меня есть список массивов, для которых мне нужно найти элемент с самой высокой частотой для каждого элемента списка. Для следующего кода «unhashable type: 'list'» выдается ошибка. Однако я также пытался распараллелить список результатов но ошибка остается.

    # [array(0,1,1),array(0,0,1),array(1,1,0)] example of list


    def finalml(listn):
        return Counter(listn).most_common(1)


    # the array list is return by this 
    results = sn.rdd.map(lambda xw: bc_knnobj.value.kneighbors(xw, return_distance=False)).collect() 

    labels = results.map(lambda xw: finalml(xw)).collect()

ожидаемый результат [1,0,1]

1 Ответ

1 голос
/ 05 июня 2019

Попробуйте, может быть, это:

x = [[0,1,1],[0,0,1],[1,1,0]]
df = spark.createDataFrame(x)
df.show()

Ввод df:

+---+---+---+
| _1| _2| _3|
+---+---+---+
|  0|  1|  1|
|  0|  0|  1|
|  1|  1|  0|
+---+---+---+

import pyspark.sql.functions as F
@F.udf
def mode(x):
    from collections import Counter
    return Counter(x).most_common(1)[0][0]

cols = df.columns
agg_expr = [mode(F.collect_list(col)).alias(col) for col in cols]
df.groupBy().agg(*agg_expr).show()

Вывод df:

+---+---+---+
| _1| _2| _3|
+---+---+---+
|  0|  1|  1|
+---+---+---+
...