Обновление таблицы SQL с расчетами относительно предыдущих строк - PullRequest
1 голос
/ 28 июня 2010

Я пытаюсь исправить некоторые ошибки в большой базе данных биржи. Один столбец (количество) имеет торговый объем на каждом тике, а другой столбец хранит совокупный объем (т. Е. Сумму предыдущих тиков дня). Этот второй столбец неверен в некоторых случаях (не так много, поэтому мы можем с уверенностью предположить, что соседние галочки неверны). Таким образом, теоретически исправить легко: просто найдите тик, где совокупный объем уменьшается (этого достаточно), а затем выберите совокупный объем из последнего тика и суммируйте количество текущего тика. Дело в том, что я пытался заставить работать запрос, который делает это в oracle, но я борюсь из-за недостатка опыта в sql. Это то, что я получил до сих пор:

update
( 
    select m.cumulative_volume, q.cum_volume_ant, q.quantity from 
    market_data_intraday_trades m
    join
    (
          select * from
          (select
            product_key,
            sequence_number,
            lead(product_key) over (order by product_key, sequence_number) as product_key_ant,
            to_char(trade_date_time, 'yyyymmdd') as fecha,
            to_char(lag(trade_date_time) over (order by product_key, sequence_number), 'yyyymmdd') as fecha_ant,
            cumulative_volume,
            lead(cumulative_volume) over (order by product_key, sequence_number) as cum_volume_ant,
            cumulative_volume - lead(cumulative_volume) over (order by product_key, sequence_number) as dif 
          from market_data_intraday_trades)
          where product_key = product_key_ant
          and fecha = fecha_ant
          and dif < 0 
          and rownum < 10
    ) q
    on m.sequence_number = q.sequence_number
)
set m.cumulative_volume = q.cum_volume_ant + q.quantity

В настоящее время проблема в том, что я не могу использовать величины из внутреннего запроса во внешних вычислениях.

Возможно, все это будет яснее и / или проще с временными таблицами или pl / sql или курсорами, но из-за корпоративных политик у меня нет привилегий для этого, я просто выбираю и обновляю.

Я был бы очень признателен, если бы вы указали мне направление, чтобы решить эту проблему.

Заранее спасибо!

PS. Феча дата на испанском, на всякий случай:)

Ответы [ 3 ]

7 голосов
/ 28 июня 2010

Вот некоторые тестовые данные. Как вы можете видеть, CUMULATIVE_VOLUME для четвертого ряда неверно.

SQL> select product_key
  2         , trade_date_time
  3         , quantity
  4         , cumulative_volume
  5         , sum (quantity) over (partition by product_key order by sequence_number) as running_total
  6  from  market_data_intraday_trades
  7  order by sequence_number
  8  /

PROD TRADE_DAT   QUANTITY CUMULATIVE_VOLUME RUNNING_TOTAL
---- --------- ---------- ----------------- -------------
ORCL 23-JUN-10        100               100           100
ORCL 23-JUN-10         50               150           150
ORCL 25-JUN-10        100               250           250
ORCL 26-JUN-10        100               250           350
ORCL 26-JUN-10         50               400           400
ORCL 27-JUN-10         75               475           475

6 rows selected.

SQL>

Самым простым решением является обновление всех строк с вычисленным промежуточным итогом:

SQL> update market_data_intraday_trades m
  2  set m.cumulative_volume =
  3          ( select inq.running_total
  4            from (
  5                      select sum (quantity) over (partition by product_key
  6                                                  order by sequence_number) as running_total
  7                             , cumulative_volume
  8                             , rowid as row_id
  9                      from  market_data_intraday_trades
 10                  ) inq
 11             where m.rowid = inq.row_id
 12          )
 13  /

6 rows updated.

SQL> select product_key
  2         , trade_date_time
  3         , quantity
  4         , cumulative_volume
  5         , sum (quantity) over (partition by product_key
  6                                order by sequence_number) as running_total
  7         , rowid as row_id
  8  from  market_data_intraday_trades
  9  order by sequence_number
 10  /

PROD TRADE_DAT   QUANTITY CUMULATIVE_VOLUME RUNNING_TOTAL 
---- --------- ---------- ----------------- ------------- 
ORCL 23-JUN-10        100               100           100 
ORCL 23-JUN-10         50               150           150 
ORCL 25-JUN-10        100               250           250 
ORCL 26-JUN-10        100               350           350 
ORCL 26-JUN-10         50               400           400 
ORCL 27-JUN-10         75               475           475 

6 rows selected.

SQL> 

Однако, если у вас много данных, и вы действительно не хотите, чтобы все эти ненужные обновления, используйте тот же запрос снова, чтобы ограничить попадания:

SQL> update market_data_intraday_trades m
  2  set m.cumulative_volume =
  3          ( select inq.running_total
  4            from (
  5                      select sum (quantity) over (partition by product_key
  6                                                  order by sequence_number) as running_total
  7                             , cumulative_volume
  8                             , rowid as row_id
  9                      from  market_data_intraday_trades
 10                  ) inq
 11             where m.rowid = inq.row_id
 12          )
 13  where m.rowid in
 14      ( select inq.row_id
 15            from (
 16                      select sum (quantity) over (partition by product_key
 17                                                  order by sequence_number) as running_total
 18                             , cumulative_volume
 19                             , rowid as row_id
 20                      from  market_data_intraday_trades
 21                  ) inq
 22             where m.cumulative_volume != running_total
 23          )
 24
SQL> /

1 row updated.

SQL> select product_key
  2         , trade_date_time
  3         , quantity
  4         , cumulative_volume
  5         , sum (quantity) over (partition by product_key
  6                                order by sequence_number) as running_total
  7  from  market_data_intraday_trades
  8  order by sequence_number
  9  /

PROD TRADE_DAT   QUANTITY CUMULATIVE_VOLUME RUNNING_TOTAL
---- --------- ---------- ----------------- -------------
ORCL 23-JUN-10        100               100           100
ORCL 23-JUN-10         50               150           150
ORCL 25-JUN-10        100               250           250
ORCL 26-JUN-10        100               350           350
ORCL 26-JUN-10         50               400           400
ORCL 27-JUN-10         75               475           475

6 rows selected.

SQL> 

Я попробовал предложение Николаса использовать MERGE. Если вы используете 10 г или выше, то это будет работать. Вам нужна последняя версия Oracle, потому что 9i не поддерживает MERGE с ОБНОВЛЕНИЕМ, но без ВСТАВКИ (а 8i вообще не поддерживает MERGE).

SQL> merge into market_data_intraday_trades m
  2  using ( select running_total
  3                 , row_id
  4          from
  5              (   select sum (quantity) over (partition by product_key
  6                                              order by sequence_number) as running_total
  7                         , cumulative_volume
  8                         , rowid as row_id
  9                  from  market_data_intraday_trades
 10               )
 11           where cumulative_volume != running_total
 12          ) inq
 13  on ( m.rowid = inq.row_id  )
 14  when matched then
 15      update set m.cumulative_volume = inq.running_total
 16  /

1 row merged.

SQL>

Это решение аккуратнее, чем другое решение.

4 голосов
/ 28 июня 2010

Просто добавив сравнение производительности к ответу APC:

SQL> update market_data_intraday_trades m
  2  set m.cumulative_volume =
  3          ( select inq.running_total
  4            from (
  5                      select sum (quantity) over (partition by product_key
  6                                                  order by sequence_number) as running_total
  7                             , cumulative_volume
  8                             , rowid as row_id
  9                      from  market_data_intraday_trades
 10                  ) inq
 11             where m.rowid = inq.row_id
 12          )
 13  /

6 rows updated.

SQL> select * from table(dbms_xplan.display_cursor(null,null,'iostats last'))
  2  /

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------------------------------------------------------------
SQL_ID  4mgw11769k00r, child number 0
-------------------------------------
update market_data_intraday_trades m set m.cumulative_volume =         ( select inq.running_total
      from (                     select sum (quantity) over (partition by product_key
                                order by sequence_number) as running_total
, cumulative_volume                            , rowid as row_id                     from
market_data_intraday_trades                 ) inq            where m.rowid = inq.row_id         )

Plan hash value: 3204855846

--------------------------------------------------------------------------------------------------------------
| Id  | Operation            | Name                        | Starts | E-Rows | A-Rows |   A-Time   | Buffers |
--------------------------------------------------------------------------------------------------------------
|   1 |  UPDATE              | MARKET_DATA_INTRADAY_TRADES |      1 |        |      0 |00:00:00.01 |      35 |
|   2 |   TABLE ACCESS FULL  | MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       3 |
|*  3 |   VIEW               |                             |      6 |      6 |      6 |00:00:00.01 |      18 |
|   4 |    WINDOW SORT       |                             |      6 |      6 |     36 |00:00:00.01 |      18 |
|   5 |     TABLE ACCESS FULL| MARKET_DATA_INTRADAY_TRADES |      6 |      6 |     36 |00:00:00.01 |      18 |
--------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   3 - filter("INQ"."ROW_ID"=:B1)


25 rows selected.

Посмотрите на эти 36.Это O (N ^ 2).

SQL> update market_data_intraday_trades m
  2  set m.cumulative_volume =
  3          ( select inq.running_total
  4            from (
  5                      select sum (quantity) over (partition by product_key
  6                                                  order by sequence_number) as running_total
  7                             , cumulative_volume
  8                             , rowid as row_id
  9                      from  market_data_intraday_trades
 10                  ) inq
 11             where m.rowid = inq.row_id
 12          )
 13  where m.rowid in
 14      ( select inq.row_id
 15            from (
 16                      select sum (quantity) over (partition by product_key
 17                                                  order by sequence_number) as running_total
 18                             , cumulative_volume
 19                             , rowid as row_id
 20                      from  market_data_intraday_trades
 21                  ) inq
 22             where m.cumulative_volume != running_total
 23          )
 24
SQL> /

1 row updated.

SQL> select * from table(dbms_xplan.display_cursor(null,null,'iostats last'))
  2  /

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------------------------------------------------------------
SQL_ID  8fg3vnav1t742, child number 0
-------------------------------------
update market_data_intraday_trades m set m.cumulative_volume =         ( select inq.running_total
     from (                     select sum (quantity) over (partition by product_key
                              order by sequence_number) as running_total                            ,
cumulative_volume                            , rowid as row_id                     from
market_data_intraday_trades                 ) inq            where m.rowid = inq.row_id         )
where m.rowid in     ( select inq.row_id           from (                     select sum (quantity)
over (partition by product_key                                                 order by
sequence_number) as running_total                            , cumulative_volume
     , rowid as row_id                     from  market_data_intraday_trades                 ) inq
       where m.cumulative_volume != running_total         )

Plan hash value: 1087408236

---------------------------------------------------------------------------------------------------------------
| Id  | Operation             | Name                        | Starts | E-Rows | A-Rows |   A-Time   | Buffers |
---------------------------------------------------------------------------------------------------------------
|   1 |  UPDATE               | MARKET_DATA_INTRADAY_TRADES |      1 |        |      0 |00:00:00.01 |      14 |
|*  2 |   HASH JOIN SEMI      |                             |      1 |      5 |      1 |00:00:00.01 |       6 |
|   3 |    TABLE ACCESS FULL  | MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       3 |
|   4 |    VIEW               |                             |      1 |      6 |      6 |00:00:00.01 |       3 |
|   5 |     WINDOW SORT       |                             |      1 |      6 |      6 |00:00:00.01 |       3 |
|   6 |      TABLE ACCESS FULL| MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       3 |
|*  7 |   VIEW                |                             |      1 |      6 |      1 |00:00:00.01 |       4 |
|   8 |    WINDOW SORT        |                             |      1 |      6 |      6 |00:00:00.01 |       4 |
|   9 |     TABLE ACCESS FULL | MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       4 |
---------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   2 - access("M".ROWID="INQ"."ROW_ID")
       filter("M"."CUMULATIVE_VOLUME"<>"RUNNING_TOTAL")
   7 - filter("INQ"."ROW_ID"=:B1)


36 rows selected.

Это намного лучше.

SQL> merge into market_data_intraday_trades mdit1
  2  using ( select product_key
  3               , sequence_number
  4               , running_total
  5            from ( select product_key
  6                        , sequence_number
  7                        , cumulative_volume
  8                        , sum(quantity) over (partition by product_key order by sequence_number) as running_total
  9                     from market_data_intraday_trades
 10                 )
 11           where cumulative_volume != running_total
 12        ) mdit2
 13     on (   mdit1.product_key = mdit2.product_key
 14        and mdit1.sequence_number = mdit2.sequence_number
 15        )
 16   when matched then
 17        update set mdit1.cumulative_volume = mdit2.running_total
 18  /

1 row merged.

SQL> select * from table(dbms_xplan.display_cursor(null,null,'iostats last'))
  2  /

PLAN_TABLE_OUTPUT
--------------------------------------------------------------------------------------------------------------------------------------
SQL_ID  cjafdk3jg4gzz, child number 0
-------------------------------------
merge into market_data_intraday_trades mdit1 using ( select product_key              , sequence_number
            , running_total           from ( select product_key                       , sequence_number
                      , cumulative_volume                       , sum(quantity) over (partition by
product_key order by sequence_number) as running_total                    from
market_data_intraday_trades                )          where cumulative_volume != running_total       )
mdit2    on (   mdit1.product_key = mdit2.product_key       and mdit1.sequence_number =
mdit2.sequence_number       )  when matched then       update set mdit1.cumulative_volume =
mdit2.running_total

Plan hash value: 2367693855

----------------------------------------------------------------------------------------------------------------
| Id  | Operation              | Name                        | Starts | E-Rows | A-Rows |   A-Time   | Buffers |
----------------------------------------------------------------------------------------------------------------
|   1 |  MERGE                 | MARKET_DATA_INTRADAY_TRADES |      1 |        |      1 |00:00:00.01 |       9 |
|   2 |   VIEW                 |                             |      1 |        |      1 |00:00:00.01 |       6 |
|*  3 |    HASH JOIN           |                             |      1 |      6 |      1 |00:00:00.01 |       6 |
|*  4 |     VIEW               |                             |      1 |      6 |      1 |00:00:00.01 |       3 |
|   5 |      WINDOW SORT       |                             |      1 |      6 |      6 |00:00:00.01 |       3 |
|   6 |       TABLE ACCESS FULL| MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       3 |
|   7 |     TABLE ACCESS FULL  | MARKET_DATA_INTRADAY_TRADES |      1 |      6 |      6 |00:00:00.01 |       3 |
----------------------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   3 - access("MDIT1"."PRODUCT_KEY"="PRODUCT_KEY" AND "MDIT1"."SEQUENCE_NUMBER"="SEQUENCE_NUMBER")
   4 - filter("CUMULATIVE_VOLUME"<>"RUNNING_TOTAL")


31 rows selected.

Но слияние превосходит их всех за одно сканирование таблицы.

С уважением, Роб.

3 голосов
/ 28 июня 2010

Вы пробовали MERGE утверждение?Возможно, и в зависимости от вашей версии Oracle, это может быть способ расследования, по крайней мере, это может упростить ваше утверждение.

Николас.

...