Question

У меня ниже 3 sqls.

select count(distinct visitor_id)
from df_and_lkp_join_cache
--178996 

select count(distinct trim(visitor_id))
from df_and_lkp_join_cache
--178996

select count(distinct visitor_id)
from (select a.visitor_id, a.ip, b.visitor_id as visitor_id_b
      from df_and_lkp_join_cache a inner join
           df_not_matching_lkp b
           on a.ip = b.ip
      )
--628259

Поскольку мои объединения не указаны в столбцах visitor_id, я ожидаю, что количество выходных данных для 3-го sql будет меньше или равно 178996. Но количество увеличивается.

Я не могу понять это поведение spark-sql.Пожалуйста, помогите мне, если я ошибаюсь.Что здесь не так.

Странная проблема, возникающая при использовании spark-sql

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Странная проблема, возникающая при использовании spark-sql

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы