Диаграмма ER для государственной статистики - PullRequest
0 голосов
/ 17 июня 2020

Я новичок в проектировании баз данных и пытаюсь попрактиковаться в доступной государственной статистике для небольшой страны. Я нашел почти 100 таблиц, в которых хранится информация, собранная за определенные годы и месяцы из определенного c региона. Некоторые таблицы обновляются ежемесячно, а другие - ежегодно. Я считаю, что это означает, что в каждой таблице будет естественный составной ПК, составленный из года и месяца, или просто ПК, составленный из года.

Диаграмма ER ER Diagram

На изображении выше каждый родительский атрибут Trip Survey представляет собой одну из многих таблиц данных, которые я собрал из c банков данных, указанных c в исследуемом регионе (например, удовлетворение_уровень, мотивация_уровень, количество_израсходованных, все представляют разные опросы на такое же население). Имеет ли смысл объединить все таблицы в одну таблицу (например, обзор поездки)?

Я не уверен, точны ли мои отношения (полное и частичное участие). Моя цель - иметь возможность запрашивать данные, чтобы находить точки корреляции и делать прогнозы на будущее. Я хочу попытаться соединить все таблицы с течением времени.

Собранные опросы могут охватывать практически любые топи c, но общая тенденция состоит в том, что они представляют собой момент времени, ежемесячно или ежегодно. Я хочу в конечном итоге добавить таблицу значимых политических событий, которые могут отражать выбросы из тенденций.

Пример результата: когда уровень мотивации был низким в 2018 году, расходы также снизились, а продолжительность пребывания была меньше по сравнению с 'n' период.

Как новичок ie, любая помощь приветствуется.

Спасибо

1 Ответ

0 голосов
/ 17 июня 2020

Упростить упрощать упрощать.

Начните с одной таблицы, по крайней мере, с некоторыми столбцами, которые вы понимаете. Загрузите его в несколько dbms (выберите один с геопространственными возможностями и оконными функциями, они могут понадобиться позже: последние версии MariaDB, MySQL и Postre SQL - прекрасный выбор). Импортируйте свою таблицу. Это может быть головной болью, чтобы получить правильный ответ, но в любом случае сделайте все возможное, чтобы все исправить.

Не беспокойтесь о первичных ключах или уникальных индексах, когда начинаете. Вы просто изучаете данные, а не строите их. Не беспокойтесь о покупке или аренде сервера: большинство ноутбуков прекрасно справляются с подобными исследованиями.

Выберите клиентскую программу, которая хранит историю запросов, которые вы ей вводите. Хайди SQL - хороший выбор. Стоит взглянуть на относительно новый Datagrip от Jetbrains. Избегайте Microsoft SQL Server Management Studio: нет функции истории. (Вам часто нужно go вернуться к тому, что вы пробовали несколько часов или дней, а go, когда вы изучаете, поэтому функция истории запросов жизненно важна.)

Затем возитесь с запросами , особенно агрегаты ... например,

 SELECT COUNT(*), year, origin, destination
   FROM trip
  GROUP BY year, origin, destination;

Ищите интересные вещи, которые вы можете почерпнуть из одной таблицы. Понять смысл этого. Затем добавьте еще одну таблицу, которую можно легко ПРИСОЕДИНИТЬ, к первой таблице. Повторите свое исследование.

Это должно помочь вам начать. Как только вы начнете понимать свой набор данных, вы можете приступить к ранжированию, вычислению квинтилей и тому подобное.

И, когда вам нужно обновить или дополнить данные, не перезагружая их, вам понадобятся различные первичные / уникальные ключи. Это в будущем для вас.

...