Разница между nodupkey в SAS и SELECT * DISTINCT FROM table_name в SQL - PullRequest
0 голосов
/ 18 мая 2018

У меня есть набор данных с 2 полями, хранящими строки.1. В SAS, когда я делаю nodupkey для набора данных, я получаю ~ 200 записей.2. В SQL, когда я делаю SELECT DISTINCT / GROUP BY / PARTITION BY, я получаю ~ 2000 записей.Этот код SQL выполняется на HIVE, который размещен на сервере AWS EMR.

Набор данных, над которым я работаю, имеет NULL в некоторых записях для одного из полей.Я не делаю ничего другого, кроме того, что я упомянул в пунктах 1 и 2.

Я ищу объяснение, почему между этими двумя существует огромное несоответствие, когда я делаю простое удаление дубликатов.

1 Ответ

0 голосов
/ 18 мая 2018

Distinct работает со всеми полями в операторе select, и база данных, скорее всего, будет считать нули и пробелы различными.SAS не рассматривает пустые и пустые значения как разные, а только фильтры, основанные на переменных, перечисленных в операторе BY.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...