В приложении Spark-Scala, включающем Join, в какой момент мы должны преобразовать Dataframe в набор данных? - PullRequest
1 голос
/ 20 марта 2019

В нашем приложении Spark-Scala мы хотим использовать типизированные наборы данных. Есть операция JOIN. Существует соединение между DF1 & DF2 (DF - Dataframe).

У меня вопрос: должны ли мы преобразовать DF1 и DF2 в Dataset[T] и затем выполнить JOIN, или мы должны выполнить JOIN и затем преобразовать результат DataFrame в Dataset.

Как я понимаю, поскольку здесь Dataset[T] используется для безопасности типов, поэтому мы должны преобразовать DF1 & DF2 в Dataset[T]. Может кто-нибудь подтвердить и сообщить, если что-то не так?

...