Я новичок в Spark, и мне было интересно, возможно ли следующее:
У меня есть 2 Datasets
, и у них обоих есть поля EventTime
и UserId
.Однако они отличаются во всех других столбцах.
Я хочу написать функцию, которая принимает эти Datasets
и выплевывает в последний раз, когда я видел каждого пользователя.
Это достаточно просто,потому что мы можем выбрать строку с максимальным временем для каждого пользователя (groupby
)
Допустим, у меня есть функция LastSeenTime(events: DataFrame): DataFrame { ... }
Мой вопрос: как бы вы организовали код, ипотенциально определить тип / интерфейс так, чтобы LastSeenTime
мог обеспечить, чтобы events
имел столбцы UserId
и EventTime
, необходимые для обработки.
Может ли схема набора данных соответствовать частичным интерфейсам?
Спасибо!