В нашем приложении Spark-Scala мы хотим использовать типизированные наборы данных. Есть операция JOIN. Существует соединение между DF1 & DF2 (DF - Dataframe)
.
У меня вопрос: должны ли мы преобразовать DF1 и DF2 в Dataset[T]
и затем выполнить JOIN
, или мы должны выполнить JOIN
и затем преобразовать результат DataFrame
в Dataset
.
Как я понимаю, поскольку здесь Dataset[T]
используется для безопасности типов, поэтому мы должны преобразовать DF1 & DF2 в Dataset[T]
. Может кто-нибудь подтвердить и сообщить, если что-то не так?