Inner Join On (Hive) дает другой результат, чем PySpark Inner Join - PullRequest
0 голосов
/ 17 января 2019

Я наблюдал это явление сегодня. Когда я выполняю следующую команду в Hive CLI, я получаю что-то иное, чем при использовании pyspark:

Улей:

Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX=t2.fieldX AND t1.fieldY=t2.fieldY);

Результат: 17 488

SparkSQL:

hc.sql("Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX==t2.fieldX AND t1.fieldY==t2.fieldY)")

Результат: 5555

Я получаю тот же результат, используя этот код:

tabl1.alias("t1").join(
    other=table2.alias("t2"),
    on=[t1.fieldX==t2.fieldX, t1.fieldY==t2.fieldY]
    how='inner'
    ).select("fieldX").distinct().count()

Результат: 5555

Не понимаю, почему я получаю разные результаты!

...