Я пытаюсь разработать многомерную базу данных. Я немного запутался в том, какие меры включены в таблицу фактов.
Набор данных - https://www.kaggle.com/johnolafenwa/us-census-data
В настоящее время это мои таблицы измерений
**Person Table**
personID INT PRIMARY KEY IDENTITY,
age_group varchar(20) NOT NULL,
age INT NOT NULL,
gender varchar(20) NOT NULL,
race varchar(20) NOT NULL,
relationship varchar(20) NOT NULL,
martial_status varchar(20) NOT NULL,
**Education Table**
educationID INT PRIMARY KEY IDENTITY,
education_num INT NOT NULL,
education varchar(20) NOT NULL,
education_level varchar(20) NOT NULL,
**Employment Table**
employmentID INT PRIMARY KEY,
occupation varchar(20) NOT NULL,
workclass varchar(20) NOT NULL,
is_Government varchar(20) NOT NULL,
hours_per_week INT NOT NULL,
**Income Table**
incomeID INT PRIMARY KEY,
capital_loss INT NOT NULL,
capital_gains INT NOT NULL,
greater_then_50K varchar(5) NOT NULL,
Я очень запутался в том, что измерять. Например, сколько мер должно быть там? Вот некоторые вопросы, о которых я думал, чтобы ответить на деловые вопросы:
total_capital_gains И total_capital_loss (добавка) average_capital_gains AND average_capital_loss (полуаддитивный) total_hours_per_week (добавка) average_hours_per_week (полуаддитивный)
Попытка понять, как эти меры будут выглядеть в их зерне. Например, лучшее зерно будет на человека. Следующее сведение будет возможно для каждой возрастной группы и т. Д. c ..
Я понимаю, что процент может быть хорошей мерой, но я не уверен, какое соотношение я должен проверить.
Извините если я задаю неправильный вопрос, но я действительно застрял в этой концепции.
Спасибо