Какие могут быть полезные случаи использования метода reduce
в Dataset
.
У меня есть следующая таблица
DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count
United States Romania 15
United States Croatia 1
United States Ireland 344
Egypt United States 15
Таблица представлена в виде набора данных.
scala> dataDS
res187: org.apache.spark.sql.Dataset[FlightData] = [DEST_COUNTRY_NAME: string, ORIGIN_COUNTRY_NAME: string ... 1 more field]
Я не могу вспомнить ни одного полезного сценария использования метода reduce
в dataDS
.Я предполагаю, что метод reduce
выберет две строки (представленные как FlightData
) и выполнит в нем некоторую операцию, которая должна быть математически ассоциативной и кумулятивной, а результат должен быть FightData
(func: (FlightData, FlightData) => FlightData)FlightData
Возможно, приведенная выше таблица не соответствует цели reduce
.Какой тип данных тогда будет соответствовать reduce
?