Нам нужно контролировать огромный набор данных с помощью Spark.Элемент управления состоит из группировки данных по ключу (мы используем для этого: groupByKey()
), а затем зацикливание для каждого сгруппированных данных для проверки согласованности между ними.
Например, у нас есть файл CSV ниже содержит эти столбцы дляcheck:
id;dateBegin;dateEnd;event;dateEvent
1;12/02/2015;30/05/2015;active;05/04/2015
1;12/06/2015;30/07/2015;dead;05/07/2015
2;12/02/2016;30/07/2016;dead;05/04/2015
Мы использовали JavaRdd<String>.map().groupByKey()
, но Spark зависает для большого набора данных.
Есть ли другие варианты для использования?Спасибо