Question

У меня есть набор данных с 2 полями, хранящими строки.1. В SAS, когда я делаю nodupkey для набора данных, я получаю ~ 200 записей.2. В SQL, когда я делаю SELECT DISTINCT / GROUP BY / PARTITION BY, я получаю ~ 2000 записей.Этот код SQL выполняется на HIVE, который размещен на сервере AWS EMR.

Набор данных, над которым я работаю, имеет NULL в некоторых записях для одного из полей.Я не делаю ничего другого, кроме того, что я упомянул в пунктах 1 и 2.

Я ищу объяснение, почему между этими двумя существует огромное несоответствие, когда я делаю простое удаление дубликатов.

Reeza · Answer 1 · 18 мая 2018

Distinct работает со всеми полями в операторе select, и база данных, скорее всего, будет считать нули и пробелы различными.SAS не рассматривает пустые и пустые значения как разные, а только фильтры, основанные на переменных, перечисленных в операторе BY.

Разница между nodupkey в SAS и SELECT * DISTINCT FROM table_name в SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разница между nodupkey в SAS и SELECT * DISTINCT FROM table_name в SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы