Я строю хранилище данных в своей компании, и я столкнулся с ситуацией, когда я извлекаю данные с небольшими изменениями в имени, но привязываюсь к одному и тому же идентификатору.Это, очевидно, проблема, потому что моя таблица измерений должна иметь только одну запись для каждого идентификатора
, например:
+======+===================+
| id | name |
+======+===================+
| 185 | AAAA |
+------+-------------------+
| 185 | AAAB |
+------+-------------------+
| 197 | XXXA |
+------+-------------------+
| 197 | XXXB |
+------+-------------------+
| 197 | XXXC |
+------+-------------------+
Как видите, поле идентификатора должно быть привязано к одному уникальному значению, ноесть строки, которые имеют небольшие вариации, но привязаны к одному и тому же идентификатору.Одна мысль состояла в том, чтобы нормализовать строки, но мы потеряли бы некоторые из метаданных.Кроме того, я должен отметить, что мы используем Redshift, поэтому ограничение уникального идентификатора не применяется.Как лучше всего решить эту проблему?