Как сравнить значение столбца со всеми строками столбца в отдельном фрейме данных в Spark - PullRequest
0 голосов
/ 25 мая 2020

У меня есть эти два фрейма данных.

enter image description here
enter image description here

Моя цель - сравнить каждое значение Столбец «FilteredDescription» в первом кадре данных для всех значений столбца «Имя» во втором кадре данных.

1 Ответ

0 голосов
/ 25 мая 2020

Поскольку вы не указали полный поток вашего logi c, я просто добавляю ниже logi c для соответствия одному столбцу из обеих таблиц.

//load data for first dataframe.
val dfa = dfaData.withColumn("id",monotonically_increasing_id).withColumn("id",row_number().over(Window.partitionBy($"id").orderBy($"id".asc)))
//load data for second dataframe.
val dfb = dfbData.withColumn("id",monotonically_increasing_id).withColumn("id",row_number().over(Window.partitionBy($"id").orderBy($"id".asc)))

//Used cross join to match dfa columns to dfb columns.
dfa.crossJoin(dfb).withColumn("matched",when($"filtereddescription" === $"name", lit("matched")).otherwise("not matched")).show(false)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...