Postgresql Сканирование только индекса не работает должным образом в группе - PullRequest
0 голосов
/ 25 марта 2020

У меня есть таблица типа:

CREATE TABLE summary
(
    id serial NOT NULL,
    user_id bigint NOT NULL,
    country character varying(5),
    product_id bigint NOT NULL,
    category_id bigint NOT NULL,
    text_id bigint NOT NULL,
    text character varying(255),
    product_type integer NOT NULL,
    event_name character varying(255),
    report_date date NOT NULL,
    currency character varying(5),
    revenue double precision,
    last_event_time timestamp
);

Размер моей таблицы составляет 1786 МБ (кроме индекса). Здесь я создал индекс, как показано ниже:

CREATE INDEX "idx_as_type_usr_productId_eventTime"
    ON summary USING btree
    (product_type, user_id, product_id, last_event_time)
    INCLUDE(event_name);

И мой простой запрос выглядит следующим образом:

select 
   event_name, 
   max(last_event_time) 
from summary s 
where s.user_id = ? and s.product_id = ? and s.product_type = ? 
   and s.last_event_time > '2020-03-01' and s.last_event_time < '2020-03-25'
group by event_name;

Когда я объясняю это, это выглядит так:

HashAggregate  (cost=93.82..96.41 rows=259 width=25) (actual time=9187.533..9187.536 rows=10 loops=1)
  Group Key: event_name
  Buffers: shared hit=70898 read=10579 dirtied=22650
  I/O Timings: read=3876.367
  ->  Index Only Scan using "idx_as_type_usr_productId_eventTime" on summary s  (cost=0.56..92.36 rows=292 width=25) (actual time=0.485..9153.812 rows=87322 loops=1)
        Index Cond: ((product_type = 2) AND (product_id = ?) AND (product_id = ?) AND (last_event_time > '2020-03-01 00:00:00'::timestamp without time zone) AND (last_event_time < '2020-03-25 00:00:00'::timestamp without time zone))
        Heap Fetches: 35967
        Buffers: shared hit=70898 read=10579 dirtied=22650
        I/O Timings: read=3876.367
Planning Time: 0.452 ms
Execution Time: 9187.583 ms

Здесь все выглядит хорошо. Но когда я выполняю его, это занимает более 10 секунд, иногда это занимает более 30 секунд.

  1. Здесь, если я выполняю его без Group By, он возвращается так быстро, как менее 2 секунд , Каков может быть эффект Group By? Выделенная часть такая маленькая (например, 500 строк).
  2. В этой таблице есть операции вставки / обновления со скоростью 30 / в секунду. Может ли это быть связано с этой проблемой индексации?

Обновлено:

Запрос без - GroupBy:

select 
   event_name, 
   last_event_time 
from summary s 
where s.user_id = ? and s.product_id = ? and s.product_type = ? 
   and s.last_event_time > '2020-03-01' and s.last_event_time < '2020-03-25';

Объяснение без - Группировка по:

Index Only Scan using "idx_as_type_usr_productId_eventTime" on summary s  (cost=0.56..92.36 rows=292 width=25) (actual time=0.023..79.138 rows=87305 loops=1)
  Index Cond: ((product_type = ?) AND (user_id = ?) AND (product_id = ?) AND (last_event_time > '2020-03-01 00:00:00'::timestamp without time zone) AND (last_event_time < '2020-03-25 00:00:00'::timestamp without time zone))
  Heap Fetches: 22949
  Buffers: shared hit=37780 read=12143 dirtied=15156
  I/O Timings: read=4418.930
Planning Time: 0.639 ms
Execution Time: 4625.213 ms

1 Ответ

2 голосов
/ 26 марта 2020

Есть несколько проблем:

  • PostgreSQL пришлось установить биты подсказок , которые портят страницы и вызывают запись.

  • PostgreSQL должен извлечь строки таблицы с диска, чтобы получить их видимость.

  • PostgreSQL должен отсканировать 80000 страниц, чтобы получить 87000 строк, поэтому индекс должен быть полностью раздутый.

Первые два можно позаботиться, запустив

VACUUM summary;

, что всегда является хорошей идеей после массовой загрузки, и раздувание может быть вылечено

REINDEX INDEX "idx_as_type_usr_productId_eventTime";
...