Bigquery находит наиболее распространенное значение, когда другой столбец совпадает - PullRequest
0 голосов
/ 17 сентября 2018

Я хочу добавить колонку New_Family_id и заполнить ее наиболее распространенным Family_id , если заголовок тот же .

Row GlobalId            ProductTitleNL      FamilyId            New_Family_id
1   9200000005045711    ! at Gun Point...   9200000005045710    9200000011427871
2   9200000003809684    ! at Gun Point...   9200000011427871    9200000011427871
3   9200000011427872    ! at Gun Point...   9200000011427871    9200000011427871
4   1001004011099420    Russian Dat         34388968            34388968
5   1001004011099421    Russian Dat         35434738            34388968
6   9200000000530359    !!Nos Vemos!        9200000000530358    9200000000530358
7   9200000000530343    !!Nos Vemos!        9200000000530342    9200000000530358

Я пробовал пару групп, но ничего не получалось ..

У меня уже есть:

SELECT a.GlobalId, a.ProductTitleNL, a.FamilyId, a.Language, b.aantal_T
FROM table1 as a

JOIN (SELECT ProductTitleNL, COUNT(ProductTitleNL) as aantal_T
FROM table1
Group by ProductTitleNL
HAVING aantal_T >= 2) b
ON a.ProductTitleNL = b.ProductTitleNL

Group by a.GlobalId, a.ProductTitleNL, a.FamilyId, a.Language, b.aantal_T
Order by a.ProductTitleNL;

Спасибо за помощь заранее!

1 Ответ

0 голосов
/ 17 сентября 2018

Ниже для BigQuery Standard SQL

#standardSQL
SELECT * EXCEPT(ids), 
  (SELECT id FROM UNNEST(ids) id GROUP BY id ORDER BY COUNT(1) DESC LIMIT 1) New_Family_id
FROM (
  SELECT *, ARRAY_AGG(FamilyId) OVER(PARTITION BY ProductTitleNL) ids
  FROM `project.dataset.table`
)

Вы можете тестировать, играть с выше, используя фиктивные данные из вашего вопроса, как показано ниже

#standardSQL
WITH `project.dataset.table` AS (
  SELECT 9200000005045711 GlobalId, '! at Gun Point...' ProductTitleNL, 9200000005045710 FamilyId UNION ALL
  SELECT 9200000003809684, '! at Gun Point...', 9200000011427871 UNION ALL
  SELECT 9200000011427872, '! at Gun Point...', 9200000011427871 UNION ALL
  SELECT 1001004011099420, 'Russian Dat', 34388968 UNION ALL
  SELECT 1001004011099421, 'Russian Dat', 35434738 UNION ALL
  SELECT 9200000000530359, '!!Nos Vemos!', 9200000000530358 UNION ALL
  SELECT 9200000000530343, '!!Nos Vemos!', 9200000000530342 
)
SELECT * EXCEPT(ids), 
  (SELECT id FROM UNNEST(ids) id GROUP BY id ORDER BY COUNT(1) DESC LIMIT 1) New_Family_id
FROM (
  SELECT *, ARRAY_AGG(FamilyId) OVER(PARTITION BY ProductTitleNL) ids
  FROM `project.dataset.table`
)   

с результатом

Row GlobalId            ProductTitleNL      FamilyId            New_Family_id    
1   9200000005045711    ! at Gun Point...   9200000005045710    9200000011427871     
2   9200000003809684    ! at Gun Point...   9200000011427871    9200000011427871     
3   9200000011427872    ! at Gun Point...   9200000011427871    9200000011427871     
4   9200000000530359    !!Nos Vemos!        9200000000530358    9200000000530358     
5   9200000000530343    !!Nos Vemos!        9200000000530342    9200000000530358     
6   1001004011099420    Russian Dat 34388968                    34388968     
7   1001004011099421    Russian Dat 35434738                    34388968     
...