Apache Spark Обработка перекошенных данных -Композитный ключ - PullRequest
0 голосов
/ 28 января 2019

У меня есть две большие таблицы.Я присоединяюсь к этим двум таблицам в Spark sql, как будто

select * from table1 A Join table2 B on(A.client=B.client,A.sitecode=B.sitecode,A.spec_nbr=B.spec_nbr).

таблица 1 имеет искаженные данные и делает запрос более длинным.Я хочу избежать искаженных данных, используя метод посола.

Для этого сценария, как применить метод посола?

Я не могу найти какой-либо соответствующий материал о том, как применять метод посола,Любая помощь приветствуется.

1 Ответ

0 голосов
/ 29 января 2019

Вы можете взглянуть на этот ответ и статью там.Возможно, это дубликат.

https://stackoverflow.com/a/40376978/5723349

...