Postgresql огромная разница в производительности при использовании IN против NOT IN - PullRequest
0 голосов
/ 04 октября 2018

У меня есть 2 таблицы, "transaksi" и "buku".«transaksi» имеет около 250 тыс. строк, а buku - около 170 тыс. строк.Обе таблицы имеют столбец с именем «k999a», и в обеих таблицах индексы отсутствуют.Теперь я проверяю эти 2 оператора.

Оператор 1:

explain select k999a from transaksi where k999a not in (select k999a from buku);

Выводы оператора 1:

 Seq Scan on transaksi  (cost=0.00..721109017.46 rows=125426 width=9)
   Filter: (NOT (SubPlan 1))
   SubPlan 1
     ->  Materialize  (cost=0.00..5321.60 rows=171040 width=8)
           ->  Seq Scan on buku  (cost=0.00..3797.40 rows=171040 width=8)

Оператор 2:

explain select k999a from transaksi where k999a in (select k999a from buku);

Оператор 2 выводит:

Hash Semi Join  (cost=6604.40..22664.82 rows=250853 width=9)
   Hash Cond: (transaksi.k999a = buku.k999a)
   ->  Seq Scan on transaksi  (cost=0.00..6356.53 rows=250853 width=9)
   ->  Hash  (cost=3797.40..3797.40 rows=171040 width=8)
         ->  Seq Scan on buku  (cost=0.00..3797.40 rows=171040 width=8)

Почему в запросе NOT IN postgresql выполняет циклическое соединение, что делает запрос длительным?

PS: postgresql версия 9.6.1 для windows 10

1 Ответ

0 голосов
/ 04 октября 2018

Этого следовало ожидать.Вы можете получить лучшую производительность, используя WHERE NOT EXISTS вместо:

SELECT k999a
FROM transaksi
WHERE NOT EXISTS (
    SELECT 1 FROM buku WHERE buku.k999a = transaksi.k999a LIMIT 1
);

Вот хорошее объяснение, почему для каждого из методов: https://explainextended.com/2009/09/16/not-in-vs-not-exists-vs-left-join-is-null-postgresql/

...