Выявление повторяющихся значений - Google BigQuery - PullRequest
0 голосов
/ 14 июля 2020

Я просто пытаюсь идентифицировать повторяющиеся значения в BigQuery.

Мой код выглядит так:

SELECT
  address,
  title_1,
  COUNT(*)
FROM
  `target.querytable`
GROUP BY
  1,2
HAVING
  COUNT (*) > 1

Я пытаюсь определить повторяющиеся записи в поле title_1 и выбрать их соответствующий URL-адрес из адресного столбца вместе с суммой дублирования. В идеале результат будет выглядеть так:

введите описание изображения здесь

Ответы [ 2 ]

1 голос
/ 14 июля 2020

Ниже для BigQuery Standard SQL

#standardSQL
SELECT * FROM (
  SELECT *, COUNT(1) OVER(PARTITION BY title_1) dup_count
  FROM `target.querytable`
)
WHERE dup_count > 1
0 голосов
/ 14 июля 2020

Если вы хотите идентифицировать дубликаты, попробуйте использовать функцию analyti c

Вы можете использовать ROW_NUMBER () над разделом столбцов, который должен быть уникальным для вас, например: ROW_NUMBER () OVER (PARTITION ПО COLUMN1, COLUMN2 ЗАКАЗАТЬ ПО COLUMN1) Каждый результат, у которого номер строки> 1, является дубликатом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...