У меня есть набор данных с 2 полями, хранящими строки.1. В SAS, когда я делаю nodupkey для набора данных, я получаю ~ 200 записей.2. В SQL, когда я делаю SELECT DISTINCT / GROUP BY / PARTITION BY, я получаю ~ 2000 записей.Этот код SQL выполняется на HIVE, который размещен на сервере AWS EMR.
Набор данных, над которым я работаю, имеет NULL в некоторых записях для одного из полей.Я не делаю ничего другого, кроме того, что я упомянул в пунктах 1 и 2.
Я ищу объяснение, почему между этими двумя существует огромное несоответствие, когда я делаю простое удаление дубликатов.