MySQL подзапрос для ссылки на поле в родительском запросе - PullRequest
12 голосов
/ 25 апреля 2011

Я создаю запрос, который выполняет некоторую фильтрацию данных рейтинга.

Предположим, у меня есть простая таблица с именем ratings, подобная следующей, для хранения данных из онлайн-инструмента оценки:

+----------------+----------------+--------+
| page_title     | timestamp      | rating |
+----------------+----------------+--------+
| Abc            | 20110417092134 | 1      |
| Abc            | 20110418110831 | 2      |
| Def            | 20110417092205 | 3      |
+----------------+----------------+--------+

Мне нужно извлечь страницы с высокой частотой низких значений в последних 10 рейтингах и ограничить этот запрос страницами, которые произвели объем не менее 20 оценок на предыдущей неделе.Это смехотворно длинный запрос, который я придумал:

SELECT a1.page_title, COUNT(*) AS rvol, AVG(a1.rating) AS theavg, 
(
     SELECT COUNT(*) FROM
     (
         SELECT * FROM ratings a2 WHERE a2.page_title = a1.page_title 
         AND DATE(timestamp) <= '2011-04-24' ORDER BY timestamp DESC LIMIT 10
     ) 
     AS latest WHERE rating >=1 AND rating <=2 ORDER BY timestamp DESC
)
AS lowest FROM ratings a1
WHERE DATE(a1.timestamp) <= "2011-04-24" AND DATE(a1.timestamp) >= "2011-04-17" 
GROUP BY a1.page_title HAVING COUNT(*) > 20

запрос верхнего уровня ищет страницы с более чем 20 рейтингами на неделе, заканчивающейся 2011-04-24,Подзапрос должен извлекать число оценок со значениями между [1,2] из последних 10 оценок каждой статьи из запроса верхнего уровня.

MySQL жалуется на то, что a1.page_title в предложении WHERE подзапросаэто неизвестный столбец, я подозреваю, что это потому, что a1 не определен как псевдоним в запросе второго уровня, но только в запросе верхнего уровня, но я не знаю, как это исправить.

(отредактировано)

Я добавляю в качестве объяснения моего подозреваемого выше относительно межуровневой ссылки на другой запрос, который работает абсолютно нормально, обратите внимание, что здесь a1 не определен в подзапросе, но он находится в непосредственном родителе:

SELECT a1.page_title, COUNT(*) AS rvol, AVG(a1.rating) AS theavg, 
(
    SELECT COUNT(*) FROM ratings a2 WHERE DATE(timestamp) <= '2011-04-24'
    AND DATE(timestamp) >= '2011-04-17' AND rating >=1 
    AND rating <=2 AND a2.page_title = a1.page_title
) AS lowest FROM ratings a1 
WHERE DATE(a1.timestamp) <= '2011-04-17' AND DATE(a1.aa_timestamp) >= '2011-04-11' 
GROUP BY a1.page_title HAVING COUNT(*) > 20

Ответы [ 3 ]

5 голосов
/ 26 апреля 2011

Я думаю, вы могли бы подумать о соединении двух в линейных представлениях, это может сделать вещи более простыми.

SELECT * 
FROM   (SELECT COUNT(*), 
               a2.page_title 
        FROM   ratings a2 
        WHERE  DATE(timestamp) <= '2011-04-24' 
               AND DATE(timestamp) >= '2011-04-17' 
               AND rating >= 1 
               AND rating <= 2 

        GROUP  BY a2.page_title) current 
       JOIN 
        (SELECT a1.page_title, 
                    COUNT(*)       AS rvol, 
                    AVG(a1.rating) AS theavg 
             FROM   ratings a1 
             WHERE  DATE(a1.timestamp) <= '2011-04-17' 
                    AND DATE(a1.a_timestamp) >= '2011-04-11' 
             GROUP  BY a1.page_title 
             HAVING COUNT(*) > 20) morethan20 
         ON current .page_title = morethan20.page_title 
1 голос
/ 26 апреля 2011

Ваш анализ ошибки верен: lowest известно в подзапросе, a1 - нет.

Я думаю, логика наизнанку. Следующее, вероятно, не самое лучшее, но оптимизатор может быть достаточно умен, чтобы объединить два подзапроса в самом внешнем SELECT. (Если это не так, рискуя читабельностью, вы можете ввести другой уровень подзапроса.)

SELECT r20plus.page_title,
 AVG((SELECT rating 
      FROM ratings r WHERE r.page_title=r20plus.page_title 
      ORDER BY timestamp DESC LIMIT 10) ) as av,
 SUM((SELECT CASE WHEN rating BETWEEN 1 AND 2 THEN 1 ELSE 0 END 
      FROM ratings r WHERE r.page_title=r20plus.page_title
      ORDER BY timestamp DESC LIMIT 10) ) as n_low,
FROM
(SELECT page_title FROM ratings  
WHERE DATE(a1.timestamp) <= "2011-04-24" AND DATE(a1.timestamp) >= "2011-04-17"
GROUP BY page_title
HAVING COUNT(rating) >= 20) AS r20plus;
1 голос
/ 25 апреля 2011

Если все, что у вас есть, это одна простая таблица, я понятия не имею, откуда вы берете все эти другие имена таблиц, такие как: a1, a2, рейтинги.Я чувствую, что либо ваш SQL немного не в порядке, либо вы пропускаете информацию.

Причина, по которой вы делаете ошибку, заключается в том, что в вашем под-подзапросе вы не включаете a1 в "FROM""оператор ... так как таблица не включена, на нее нельзя ссылаться в предложении WHERE в этом подзапросе.

SELECT * 
FROM
    (SELECT *
        FROM a1
        WHERE a1.timestamp <= (NOW()-604800)
            AND a1.timestamp >= (NOW()-1209600)
        GROUP BY a1.page_title
        HAVING COUNT(a1.page_title)>20)
    AS priorWeekCount
WHERE
    rating <= 2
ORDER BY timestamp DESC
LIMIT 10

, поскольку у меня нет полной таблицы для проверки этого ... Я ДУМАЮэто то, что вы ищете ... но это не проверено, и, зная мои привычки кодирования, очень редко я набираю 100% идеально в первый раз;)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...