Эксперты,
У меня есть код SQL (конвейер), который я планирую перенести на Python (используя Pandas) для обработки нескольких динамических c выбор столбцов (исходные данные из файлов).
В коде SQL имеется несколько временных таблиц, которые объединяются на основе разных сценариев ios.
--Code is from Oracle (Analytical function)
--Part-1
CREATE temp table TEMP_TABLE_1 as
SELECT
country,region,date
sum(sales) as sales_total,
sum(quantity) as quantity_total,
FROM <<SOURCE_DATA_1>>
WHERE date = << DATE filters >>
group by country,region,date ;
--Part-2
CREATE temp table TEMP_TABLE_2 as
SELECT country_code,region,date,sales_total,quantity_total,
sum(sales_total) over (partition by country) as sales_country #does Pandas support this function
...
FROM TEMP_TABLE_1
WHERE date = << DATE filters >>
... so on
Можете ли вы предложить
- Как можно обрабатывать несколько временных таблиц в SQL в фрейме данных, если мы создадим новый фрейм данных для каждой временной таблицы
Я попробовал приведенный ниже фрагмент кода, не зная, как двигаться дальше.
df=pd.read_csv("s3://testbucket/input.csv")
columns = df.columns
groupbyColumns = ["country","region","date"]
aggCols=[] # define columns list
expr = {x: "sum" for x in aggCols}
df2=df.groupby(groupbyColumns).agg(expr)
Спасибо за вашу помощь.