Python Pandas: обработка кода SQL в кадрах данных - PullRequest
0 голосов
/ 12 апреля 2020

Эксперты,

У меня есть код SQL (конвейер), который я планирую перенести на Python (используя Pandas) для обработки нескольких динамических c выбор столбцов (исходные данные из файлов).

В коде SQL имеется несколько временных таблиц, которые объединяются на основе разных сценариев ios.

--Code is from Oracle (Analytical function)
--Part-1

CREATE temp table TEMP_TABLE_1 as
SELECT
country,region,date
sum(sales) as sales_total,
sum(quantity) as quantity_total,
FROM <<SOURCE_DATA_1>>
WHERE date = << DATE filters >>
group by country,region,date ;

--Part-2

CREATE temp table TEMP_TABLE_2 as
SELECT country_code,region,date,sales_total,quantity_total,
sum(sales_total) over (partition by country) as sales_country    #does Pandas support this function
...
FROM TEMP_TABLE_1
WHERE  date = << DATE filters >>

... so on

Можете ли вы предложить

  1. Как можно обрабатывать несколько временных таблиц в SQL в фрейме данных, если мы создадим новый фрейм данных для каждой временной таблицы

Я попробовал приведенный ниже фрагмент кода, не зная, как двигаться дальше.

df=pd.read_csv("s3://testbucket/input.csv")
columns = df.columns
groupbyColumns = ["country","region","date"]
aggCols=[] # define columns list
expr = {x: "sum" for x in aggCols}
df2=df.groupby(groupbyColumns).agg(expr)

Спасибо за вашу помощь.

...