Я наблюдал это явление сегодня. Когда я выполняю следующую команду в Hive CLI, я получаю что-то иное, чем при использовании pyspark:
Улей:
Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX=t2.fieldX AND t1.fieldY=t2.fieldY);
Результат: 17 488
SparkSQL:
hc.sql("Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX==t2.fieldX AND t1.fieldY==t2.fieldY)")
Результат: 5555
Я получаю тот же результат, используя этот код:
tabl1.alias("t1").join(
other=table2.alias("t2"),
on=[t1.fieldX==t2.fieldX, t1.fieldY==t2.fieldY]
how='inner'
).select("fieldX").distinct().count()
Результат: 5555
Не понимаю, почему я получаю разные результаты!