Есть ли способ сравнить все строки в одном столбце кадра данных со всеми строками в другом столбце другого кадра данных (искры)? - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть два кадра данных в Spark, оба с колонкой IP. Один столбец содержит более 800000 записей, а другой - 4000 записей. Что я хочу сделать, это посмотреть, появляются ли IP-адреса в меньшем кадре данных в столбце IP большого кадра данных.

На данный момент все, что я могу сделать, это сравнить первую строку столбцов, вторые строки столбцов и т. Д. c.

Заранее спасибо!

1 Ответ

0 голосов
/ 27 февраля 2020

Как насчет этого, прямо из руководств, использующих EXISTS или NOT EXISTS, после создания временных обзоров, см. Здесь https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/2728434780191932/1483312212640900/6987336228780374/latest.html:

%sql
SELECT  *
FROM    t1 A
WHERE   NOT EXISTS (SELECT  1
                      FROM  t2 B
                     WHERE  B.colx = A.colx)
...