Question

Я хотел бы сгруппировать данные по длине, используя pyspark.

a= sc.parallelize(("number","algebra","int","str","raj"))

Ожидаемый результат в форме

(("int","str","raj"),("number"),("algebra"))

cph_sto · Answer 1 · 17 февраля 2019

a= sc.parallelize(("number","algebra","int","str","raj"))
a.collect()
    ['number', 'algebra', 'int', 'str', 'raj']

Теперь выполните следующие шаги, чтобы получить окончательный результат -

# Creating a tuple of the length of the word and the word itself.
a = a.map(lambda x:(len(x),x))

# Grouping by key (which is length of tuple)
a = a.groupByKey().mapValues(lambda x:list(x)).map(lambda x:x[1])
a.collect()
    [['int', 'str', 'raj'], ['number'], ['algebra']]

Групповое слово по длине с использованием pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Групповое слово по длине с использованием pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов