Я занимаюсь обратным проектированием некоторых устаревших алгоритмов SQL для перехода на Apache Spark.
Я столкнулся с универсальным приложением, которое, как я понимаю, специфично для TSQL, и в ANSII или Spark SQL нет прямого эквивалента.
Санитарный алгоритм:
SELECT
Id_P ,
Monthindex ,
(
SELECT
100 * (STDEV(ResEligible.num_valid) / AVG(ResEligible.num_valid)) AS Pre_Coef_Var
FROM
tbl_p a CROSS APPLY
(
SELECT
e.Monthindex ,
e.num AS num_valid
FROM
dbo.tbl_p e
WHERE
e.Monthindex = a.MonthIndex
AND e.Id_P = a.Id_P
UNION ALL
SELECT DISTINCT
B1.[MonthIndex ] ,
Tr.num AS num_valid
FROM
#tbl_pr B1
INNER JOIN
#tbl_pr B2
ON
B1.[Id_P] = B2.[Id_P]
AND B2.Rang - B1.Rang BETWEEN 0 AND 2
INNER JOIN
dbo.tbl_p Tr
ON
Tr.Id_P = B1.Id_P
AND Tr.Monthindex = B1.Monthindex
WHERE
a.Id_P = B1.[Id_P]
AND B2.[MonthIndex] =
(
SELECT
MAX([MonthIndex])
FROM
#tbl_pr
WHERE
[MonthIndex] < a.MonthIndex
AND [Id_P] = a.Id_P) ) AS ResEligible
WHERE
a.Id_P = result.Id_P
AND a.MonthIndex = result.MonthIndex) AS Coeff
FROM
tbl_p AS result
WHERE
1 = 1
AND MonthIndex = @CurrentMonth
GROUP BY
Id_P ,
Monthindex) AS CC
поэтому для каждой строки в псевдониме b мы перекрестно применяемся к внутренним запросам.
Можно ли переписать перекрестное применение в терминах операций соединения (или иным образом), чтобы я мог повторно реализовать его в spark sql?
Приветствия
Терри