В настоящее время я нахожусь в испытании, что простая «группировка» занимает около 2 минут.Вот что я сделал:
- Я создаю таблицу
create table devdb.raw_external_listings.pq_base_account_table
(
sap_id varchar(50)
,account_name nvarchar(max)
,Lead_source_code smallint not null
,company_id nvarchar(50)
,company_name nvarchar(max)
,description nvarchar(max)
,Lead_source_name nvarchar(max)
,Source_Code nvarchar(50) not null
,Source_Name nvarchar(max)
,source_country varchar(20)
,business_model varchar(20)
,posting_ID bigint not null
,Date_Posted date not null
,posted_year int not null
,posted_month int not null
,Work_Type varchar(max)
,Job_Country varchar(20)
,joblocation nvarchar(max)
,class_id int
,unique_clid varchar(max) not null sortkey
--,unique_clid bigint not null sortkey
,ultimate_parent_sap_id varchar(50)
,ultimate_parent_name nvarchar(max)
,ultimate_legal_parent_sap_id varchar(50)
,ultimate_legal_parent_sap_name varchar(max)
,account_bl varchar(50)
,postal_code varchar(50)
,emp_resp_login varchar(50)
,full_name nvarchar(max)
)
Я вставил данные (54 миллиона строк) Я управляю своей группой по
SELECT count(distinct unique_clid),count(distinct company_id), count(distinct work_type), posted_year, posted_month
FROM devdb.raw_external_listings.pq_base_account_table with (nolock)
GROUP by posted_year, posted_month
order by posted_year, posted_month
Существует ли подход для оптимизации производительности этих основных методов агрегирования?
THX Lazloo