SQL о дублированных данных - PullRequest
1 голос
/ 26 апреля 2019

У меня общий вопрос о нормализации данных (мои первые шаги в SQL).Мне дали файл CSV, который я загрузил в MySQL, и попросили нормализовать данные (используйте нормальные формы).Я нашел несколько очевидных дубликатов, но я не уверен в одном.Есть данные о компаниях и их адресах, но, например, в поле «Страна» СОЕДИНЕННЫЕ ШТАТЫ повторяются несколько тысяч раз, и я был не уверен, считается ли это дублирующими данными?Должен ли я создать отдельную таблицу, например «Страны», и дать им уникальный идентификатор, скажем, 1 для США, а затем обновить данные в исходной таблице, где есть США, заменить ее на 1?

1 Ответ

0 голосов
/ 26 апреля 2019

Если вы хотите исключить дубликаты, то 'UNITED STATES' действительно является дубликатом.

Так что, если ваша цель - нормализация, то потребуется справочная таблица countries.

Обратите внимание, что в этом случае нормализация, вероятно, уменьшит размер данных.Ваш ключ для таблицы countries, вероятно, будет целым числом (4 байта), хотя это также может быть двухзначный или трехзначный код страны ISO.Повторение первичного ключа в исходной таблице должно уменьшить общий размер данных в базе данных.

...