Фильтровать Spark Dataframe со списком значений в Scala - PullRequest
0 голосов
/ 25 сентября 2018

Я пытаюсь создать фрейм данных из таблицы улья, используя SparkSession, как показано ниже.После создания я фильтрую строки по списку идентификаторов.

val myDF = spark.sql("select * from myhivetable")
val someDF =  mfiDF.where(mfiDF("id").isin(myList:_*))

Вместо этого подхода есть способ запросить таблицу улья, как показано ниже:

val myDF = spark.sql("select * from myhivetable").where (("id").isin(myList:_*))

Когда япопробуйте вот так я получаю ошибку компиляции.

Может кто-нибудь предложить лучший подход для этого.Спасибо.

1 Ответ

0 голосов
/ 26 сентября 2018

Вы также можете выполнить внутреннее объединение, чтобы удалить ненужные идентификаторы, может сработать что-то вроде ниже.

val ids = sc.parallelize(myList).toDF("id")
someDF.join(ids, ids.id === someDF.id)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...