Я бы хотел выполнить групповую операцию на СДР, используя несколько полей с Spark Core
До сих пор мне удавалось объединить два разных RDD и сгруппировать результат RDD по одному столбцу (дата), но я хотел бы выполнить группирование по операциям над несколькими ключами / полями (страна, дата).
Я уже определил СДР типа JavaRDD<ProductSale>
public class ProductSale implements Serializable {
private static final long serialVersionUID = -4579808280658565853L;
private String country;
private String date;
private Double price;
public String getCountry() {
return country;
}
public void setCity(String country) {
this.country = country;
}
public String getDate() {
return date;
}
public void setDate(String date) {
this.date = date;
}
public Double getPrice() {
return price;
}
public void setPrice(Double price) {
this.price = price;
}
}
Фактические данные
country | date | price
Japan |2019-04-17 | 5000.0
USA |2019-04-16 | 10000.0
Japan |2019-04-17 | 3000.0
UK |2019-04-15 | 4000.0
Ожидаемый результат
country | date | price
Japan |2019-04-17 | 8000.0
USA |2019-04-16 | 10000.0
UK |2019-04-15 | 4000.0