У меня ниже 3 sqls.
select count(distinct visitor_id)
from df_and_lkp_join_cache
--178996
select count(distinct trim(visitor_id))
from df_and_lkp_join_cache
--178996
select count(distinct visitor_id)
from (select a.visitor_id, a.ip, b.visitor_id as visitor_id_b
from df_and_lkp_join_cache a inner join
df_not_matching_lkp b
on a.ip = b.ip
)
--628259
Поскольку мои объединения не указаны в столбцах visitor_id, я ожидаю, что количество выходных данных для 3-го sql будет меньше или равно 178996. Но количество увеличивается.
Я не могу понять это поведение spark-sql.Пожалуйста, помогите мне, если я ошибаюсь.Что здесь не так.