Как убрать поле bigquery, которое хранится в виде строки? - PullRequest
0 голосов
/ 18 января 2019

Я пытаюсь удалить поле, но что-то не так с моим запросом.

Пример данных в моей таблице

'1234', '{ "id" : "123" , "items" : [ { "quantity" : 1 , "product" : { "id" : "p1" , "categories" : [ "cat1","cat2","cat3"]  }}] }'

В наборе данных есть 2 поля: row_id и parts, где parts - это объект словаря с элементами списка (категориями), но тип данных частей - строка. Я хотел бы, чтобы выходные данные представляли собой отдельные строки для каждой категории.

Это то, что я пробовал, но я не получаю никакого результата.

#standardSQL
with t as (
select "1234" as row_id, '{ "id" : "123" , "items" : [ { "quantity" : 1 , "product" : { "id" : "p1" , "categories" : [ "cat1","cat2","cat3"]  }}] }' as parts 
)
select row_id, _categories
from t,
UNNEST(REGEXP_EXTRACT_ALL(JSON_EXTRACT(parts, '$.items'), r'"categories":"(.+?)"')) _categories

ожидаемый результат

id, _categories
1234, cat1
1234, cat2
1234, cat3

1 Ответ

0 голосов
/ 18 января 2019

Ниже для BigQuery Standard SQL

#standardSQL
WITH t AS (
  SELECT "1234" AS row_id, '{ "id" : "123" , "items" : [ { "quantity" : 1 , "product" : { "id" : "p1" , "categories" : [ "cat1","cat2","cat3"]  }}] }' AS parts 
)
SELECT row_id, REPLACE(_categories, '"', '') _categories
FROM t, UNNEST(SPLIT(REGEXP_EXTRACT(
  JSON_EXTRACT(parts, '$.items'), 
  r'"categories":\[(.+?)]'))
) _categories 

и дает ожидаемый результат

Row row_id  _categories  
1   1234    cat1     
2   1234    cat2     
3   1234    cat3      

Обновление

Вышеупомянутое решение было в основном сфокусировано на исправлении регулярного выражения, используемого в экстракте, но не рассматривало более общий случай наличия нескольких продуктов. Ниже приведено решение такого более общего случая

#standardSQL
WITH t AS (
  SELECT "1234" AS row_id, '''{ "id" : "123" , "items" : [ 
      { "quantity" : 1 , "product" : { "id" : "p1" , "categories" : [ "cat1","cat2","cat3"]  }},
      { "quantity" : 2 , "product" : { "id" : "p2" , "categories" : [ "cat4","cat5","cat6"]  }}
    ] }''' AS parts 
)
SELECT row_id, REPLACE(category, '"', '') category
FROM t, UNNEST(REGEXP_EXTRACT_ALL(parts, r'"categories" : \[(.+?)]')) categories,
UNNEST(SPLIT(categories)) category  

с результатом

Row row_id  category     
1   1234    cat1     
2   1234    cat2     
3   1234    cat3     
4   1234    cat4     
5   1234    cat5     
6   1234    cat6     
...