Question

У меня есть две большие таблицы.Я присоединяюсь к этим двум таблицам в Spark sql, как будто

select * from table1 A Join table2 B on(A.client=B.client,A.sitecode=B.sitecode,A.spec_nbr=B.spec_nbr).

таблица 1 имеет искаженные данные и делает запрос более длинным.Я хочу избежать искаженных данных, используя метод посола.

Для этого сценария, как применить метод посола?

Я не могу найти какой-либо соответствующий материал о том, как применять метод посола,Любая помощь приветствуется.

Fateax · Answer 1 · 29 января 2019

Вы можете взглянуть на этот ответ и статью там.Возможно, это дубликат.

Apache Spark Обработка перекошенных данных -Композитный ключ

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.