Можно ли заменить крестик на соединение? - PullRequest
1 голос
/ 12 июня 2019

Я занимаюсь обратным проектированием некоторых устаревших алгоритмов SQL для перехода на Apache Spark.

Я столкнулся с универсальным приложением, которое, как я понимаю, специфично для TSQL, и в ANSII или Spark SQL нет прямого эквивалента.

Санитарный алгоритм:

SELECT
        Id_P ,
        Monthindex     ,
        (
                SELECT
                        100 * (STDEV(ResEligible.num_valid) / AVG(ResEligible.num_valid)) AS Pre_Coef_Var
                FROM
                        tbl_p a CROSS APPLY
                        (
                                SELECT
                                        e.Monthindex ,
                                        e.num AS num_valid
                                FROM
                                        dbo.tbl_p e
                                WHERE
                                        e.Monthindex     = a.MonthIndex
                                AND     e.Id_P = a.Id_P

                                UNION ALL

                                SELECT DISTINCT
                                        B1.[MonthIndex       ] ,
                                        Tr.num AS num_valid
                                FROM
                                        #tbl_pr B1
                                INNER JOIN
                                        #tbl_pr B2
                                ON
                                        B1.[Id_P] = B2.[Id_P]
                                AND     B2.Rang - B1.Rang BETWEEN 0 AND     2
                                INNER JOIN
                                        dbo.tbl_p Tr
                                ON
                                        Tr.Id_P = B1.Id_P
                                AND     Tr.Monthindex     = B1.Monthindex
                                WHERE
                                        a.Id_P = B1.[Id_P]
                                AND     B2.[MonthIndex]  =
                                        (
                                                SELECT
                                                        MAX([MonthIndex])
                                                FROM
                                                        #tbl_pr
                                                WHERE
                                                        [MonthIndex]     < a.MonthIndex
                                                AND     [Id_P] = a.Id_P) ) AS ResEligible
                WHERE
                        a.Id_P = result.Id_P
                AND     a.MonthIndex     = result.MonthIndex) AS Coeff
FROM
        tbl_p AS result
WHERE
        1          = 1
AND     MonthIndex = @CurrentMonth
GROUP BY
        Id_P ,
        Monthindex) AS CC

поэтому для каждой строки в псевдониме b мы перекрестно применяемся к внутренним запросам.

Можно ли переписать перекрестное применение в терминах операций соединения (или иным образом), чтобы я мог повторно реализовать его в spark sql?

Приветствия

Терри

1 Ответ

0 голосов
/ 12 июня 2019

Похоже, что вы могли бы переписать свой запрос следующим образом:

SELECT T1.col1,
       T1.col2,
       sq.col3Sum
FROM tbl1 T1
     CROSS JOIN (SELECT SUM(T1sq.Col3) AS col3Sum
                 FROM tbl1 T1sq
                     JOIN tbl2 T2 ON T1sq.Col1 = T2.Col2
                     JOIN tbl3 T3 ON T2.col1 = T3.Col1) sq;

Кажется странным, однако, что не было критериев JOIN между 2 ссылками на tbl1.

...