Question

Нам нужно контролировать огромный набор данных с помощью Spark.Элемент управления состоит из группировки данных по ключу (мы используем для этого: groupByKey()), а затем зацикливание для каждого сгруппированных данных для проверки согласованности между ними.

Например, у нас есть файл CSV ниже содержит эти столбцы дляcheck:

id;dateBegin;dateEnd;event;dateEvent
1;12/02/2015;30/05/2015;active;05/04/2015
1;12/06/2015;30/07/2015;dead;05/07/2015
2;12/02/2016;30/07/2016;dead;05/04/2015

Мы использовали JavaRdd<String>.map().groupByKey(), но Spark зависает для большого набора данных.

Есть ли другие варианты для использования?Спасибо

karma4917 · Answer 1 · 09 октября 2018

Согласно этой документации: Избегать GroupByKey

redubyKey () подходит для больших наборов данных, так как Spark (до перетасовки данных) может объединятьсявывод с общим ключом.Но groupByKey () тасует данные (пары kv), создавая ненужные наборы данных.

Ищите лучшие (другие) альтернативы groupByKey.Например,

combByKey
foldByKey

Spark - groupByKey другие варианты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark - groupByKey другие варианты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы