Используя Hive, у меня есть дубликаты строк, и я хочу удалить дубликаты строк (выбирая различную строку с непустым столбцом), когда конкретный столбец пуст.Но я хочу сохранить строки, когда столбец пуст, но не в повторяющейся строке.
например, Input is
id | name | fathername | address
1 | bob | john | street1
1 | bob | john |
2 | amir | khan |
3 | roby | johanson | street3
Output
id | name | fathername | address
1 | bob | john | street1
2 | amir | khan |
3 | roby | johanson | street3
Мы отбросили строку дляid 1, когда адрес был пуст, потому что это была дублированная строка.Хотя адрес для идентификатора 2 отсутствует, мы все же хотим сохранить строку, потому что она не является дублированной строкой.Мне нужно это для улья.В реальной проблеме есть много столбцов, и решение должно работать с выбором *, а не с конкретными столбцами.