Question

У меня есть следующая структура данных и данных:

CREATE TABLE `parent` (
  `id` int(11) NOT NULL auto_increment,
  `name` varchar(10) NOT NULL,
  PRIMARY KEY  (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

INSERT INTO `parent` VALUES(1, 'parent 1');
INSERT INTO `parent` VALUES(2, 'parent 2');

CREATE TABLE `other` (
  `id` int(11) NOT NULL auto_increment,
  `name` varchar(10) NOT NULL,
  PRIMARY KEY  (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

INSERT INTO `other` VALUES(1, 'other 1');
INSERT INTO `other` VALUES(2, 'other 2');

CREATE TABLE `relationship` (
  `id` int(11) NOT NULL auto_increment,
  `parent_id` int(11) NOT NULL,
  `other_id` int(11) NOT NULL,
  PRIMARY KEY  (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

INSERT INTO `relationship` VALUES(1, 1, 1);
INSERT INTO `relationship` VALUES(2, 1, 2);
INSERT INTO `relationship` VALUES(3, 2, 1);

Я хочу найти родительские записи с обоими 1 и 2.

Это то, что я понял, но мне интересно, есть ли лучший способ:

SELECT p.id, p.name
FROM parent AS p
    LEFT JOIN relationship AS r1 ON (r1.parent_id = p.id)
    LEFT JOIN relationship AS r2 ON (r2.parent_id = p.id)
WHERE r1.other_id = 1 AND r2.other_id = 2;

Результат равен 1, «родитель 1» является правильным. Проблема в том, что как только вы получаете список из 5+ объединений, он становится беспорядочным, а по мере роста таблицы отношений он замедляется.

Есть ли лучший способ?

Я использую MySQL и PHP, но это, вероятно, довольно общий характер.

cletus · Answer 1 · 01 марта 2009

Хорошо, я проверял это. Запросы от лучшего к худшему были:

Запрос 1: Объединения (0,016 с; в основном мгновенный )

SELECT p.id, name
FROM parent p
JOIN relationship r1 ON p.id = r1.parent_id AND r1.other_id = 100
JOIN relationship r2 ON p.id = r2.parent_id AND r2.other_id = 101
JOIN relationship r3 ON p.id = r3.parent_id AND r3.other_id = 102
JOIN relationship r4 ON p.id = r4.parent_id AND r4.other_id = 103

Запрос 2: СУЩЕСТВУЕТ (0,625 с)

SELECT id, name
FROM parent p
WHERE EXISTS (SELECT 1 FROM relationship WHERE parent_id = p.id AND other_id = 100)
AND EXISTS (SELECT 1 FROM relationship WHERE parent_id = p.id AND other_id = 101)
AND EXISTS (SELECT 1 FROM relationship WHERE parent_id = p.id AND other_id = 102)
AND EXISTS (SELECT 1 FROM relationship WHERE parent_id = p.id AND oth

Запрос 3: Совокупность (1,016 с)

SELECT p.id, p.name ОТ родительского р WHERE (ВЫБЕРИТЕ COUNT (*) ИЗ ОТНОШЕНИЯ WHERE parent_id = p.id И other_id IN (100,101,102,103))

Запрос 4: Агрегат UNION (2,39 с)

SELECT id, name FROM (
  SELECT p1.id, p1.name
  FROM parent AS p1 LEFT JOIN relationship as r1 ON(r1.parent_id=p1.id)
  WHERE r1.other_id = 100
  UNION ALL
  SELECT p2.id, p2.name
  FROM parent AS p2 LEFT JOIN relationship as r2 ON(r2.parent_id=p2.id)
  WHERE r2.other_id = 101
  UNION ALL
  SELECT p3.id, p3.name
  FROM parent AS p3 LEFT JOIN relationship as r3 ON(r3.parent_id=p3.id)
  WHERE r3.other_id = 102
  UNION ALL
  SELECT p4.id, p4.name
  FROM parent AS p4 LEFT JOIN relationship as r4 ON(r4.parent_id=p4.id)
  WHERE r4.other_id = 103
) a
GROUP BY id, name
HAVING count(*) = 4

На самом деле вышеприведенные данные приводили к неверным данным, поэтому они либо неверны, либо я что-то не так сделал. В любом случае, вышесказанное - просто плохая идея.

Если это не быстро, вам нужно взглянуть на план объяснения для запроса. Возможно, вам просто не хватает соответствующих показателей. Попробуйте это с:

CREATE INDEX ON relationship (parent_id, other_id)

Прежде чем идти по пути агрегации (SELECT COUNT (*) FROM ...), вы должны прочитать Оператор SQL - «Присоединиться» к «Группировать и иметь» .

Примечание: Приведенные выше значения времени основаны на:

CREATE TABLE parent (
  id INT PRIMARY KEY,
  name VARCHAR(50)
);

CREATE TABLE other (
  id INT PRIMARY KEY,
  name VARCHAR(50)
);

CREATE TABLE relationship (
  id INT PRIMARY KEY,
  parent_id INT,
  other_id INT
);

CREATE INDEX idx1 ON relationship (parent_id, other_id);
CREATE INDEX idx2 ON relationship (other_id, parent_id);

и около 800 000 записей, созданных с помощью:

<code><?php
ini_set('max_execution_time', 600);

$start = microtime(true);

echo "<pre>\n";
mysql_connect('localhost', 'scratch', 'scratch');
if (mysql_error()) {
    echo "Connect error: " . mysql_error() . "\n";
}
mysql_select_db('scratch');
if (mysql_error()) {
    echo "Selct DB error: " . mysql_error() . "\n";
}

define('PARENTS', 100000);
define('CHILDREN', 100000);
define('MAX_CHILDREN', 10);
define('SCATTER', 10);
$rel = 0;
for ($i=1; $i<=PARENTS; $i++) {
    query("INSERT INTO parent VALUES ($i, 'Parent $i')");
    $potential = range(max(1, $i - SCATTER), min(CHILDREN, $i + SCATTER));
    $elements = sizeof($potential);
    $other = rand(1, min(MAX_CHILDREN, $elements - 4));
    $j = 0;
    while ($j < $other) {
        $index = rand(0, $elements - 1);
        if (isset($potential[$index])) {
            $c = $potential[$index];
            $rel++;
            query("INSERT INTO relationship VALUES ($rel, $i, $c)");
            unset($potential[$index]);
            $j++;
        }
    }
}
for ($i=1; $i<=CHILDREN; $i++) {
    query("INSERT INTO other VALUES ($i, 'Other $i')");
}

$count = PARENTS + CHILDREN + $rel;
$stop = microtime(true);
$duration = $stop - $start;
$insert = $duration / $count;

echo "$count records added.\n";
echo "Program ran for $duration seconds.\n";
echo "Insert time $insert seconds.\n";
echo "

\ п "; запрос функции ($ str) { mysql_query ($ строка); if (mysql_error ()) { echo "$ str:". mysql_error (). "\ П"; } } ?>

Значит, снова присоединяются, чтобы нести день.

topchef · Answer 2 · 01 марта 2009

Учитывая, что родительская таблица содержит уникальный ключ на (parent_id, other_id), вы можете сделать это:

select p.id, p.name 
  from parent as p 
 where (select count(*) 
        from relationship as r 
       where r.parent_id = p.id 
         and r.other_id in (1,2)
        ) >= 2

dkretz · Answer 3 · 01 марта 2009

Немного упрощая, это должно работать и эффективно.

ВЫБЕРИТЕ DISTINCT p.id, p.name
ОТ родителя р
ОТНОШЕНИЕ ВНУТРЕННЕГО СОЕДИНЕНИЯ r1 ON p.id = r1.parent_id AND r1.other_id = 1
ОТНОШЕНИЕ ВНУТРЕННЕГО СОЕДИНЕНИЯ r2 ON p.id = r2.parent_id AND r2.other_id = 2

потребует как минимум одну объединенную запись для каждого «другого» значения. И оптимизатор должен знать, что ему нужно найти только одно совпадение, и ему нужно только прочитать индекс, а не одну из вспомогательных таблиц, на одну из которых даже не ссылаются.

Tom H · Answer 4 · 01 марта 2009

Если вы можете поместить свой список значений other_id в таблицу, это было бы идеально. Код ниже ищет родителей с по крайней мере указанными идентификаторами. Если вы хотите, чтобы он имел ТОЧНО одинаковые идентификаторы (т. Е. Без дополнительных), вам придется немного изменить запрос.

SELECT
     p.id,
     p.name
FROM
     My_Other_IDs MOI
INNER JOIN Relationships R ON
     R.other_id = MOI.other_id
INNER JOIN Parents P ON
     P.parent_id = R.parent_id
GROUP BY
     p.parent_id,
     p.name
HAVING
     COUNT(*) = (SELECT COUNT(*) FROM My_Other_IDs)

Pablo Retyk · Answer 5 · 01 марта 2009

Вы можете сделать это с помощью вложенного выбора, я тестировал его в MSSQL 2005, но, как вы сказали, он должен быть довольно общим

SELECT * FROM parent p
WHERE p.id in(
    SELECT r.parent_Id 
    FROM relationship r 
    WHERE r.parent_id in(1,2) 
    GROUP BY r.parent_id
    HAVING COUNT(r.parent_Id)=2
)

и число 2 в COUNT(r.parent_Id)=2 соответствует количеству необходимых соединений)

TFD · Answer 6 · 01 марта 2009

Это распространенная проблема при поиске нескольких партнеров через соединение многих ко многим. Это часто встречается в сервисах, использующих концепцию «тег», например, Stackoverflow

См. Мой другой пост о лучшей архитектуре для хранения тегов (в вашем случае 'other')

Поиск выполняется в два этапа:

Найдите все возможные варианты TagCollections, которые имеют любые / все требуемые теги (может быть проще, используя курсор в виде конструкции цикла)
Выбор данных на основе соответствия TagCollection

Производительность всегда выше из-за того, что TagCollections значительно меньше, чем элементов данных для поиска

SquareCog · Answer 7 · 01 марта 2009

Я на самом деле не проверял это, но что-то вроде:

SELECT id, name FROM (
  SELECT p1.id, p1.name
  FROM parent AS p1 LEFT JOIN relationship as r1 ON(r1.parent_id=p1.id)
  WHERE r1.other_id = 1
  UNION ALL
  SELECT p2.id, p2.name
  FROM parent AS p2 LEFT JOIN relationship as r2 ON(r2.parent_id=p2.id)
  WHERE r2.other_id = 2
   -- etc
) GROUP BY id, name
HAVING count(*) = 2

Идея в том, что вам не нужно делать многоходовые соединения; просто объедините результаты регулярных объединений, сгруппируйте их по идентификаторам и выберите строки, отображаемые в каждом сегменте.

Как вы выполняете AND с объединением?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вы выполняете AND с объединением?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы