Исключить дубликаты городов из базы данных - PullRequest
1 голос
/ 28 апреля 2011

Фон

Более 5300 повторяющихся строк:

"id","latitude","longitude","country","region","city"
"2143220","41.3513889","68.9444444","KZ","10","Abay"
"2143218","40.8991667","68.5433333","KZ","10","Abay"
"1919381","33.8166667","49.6333333","IR","34","Ab Barik"
"1919377","35.6833333","50.1833333","IR","19","Ab Barik"
"1919432","29.55","55.5122222","IR","29","`Abbasabad"
"1919430","27.4263889","57.5725","IR","29","`Abbasabad"
"1919413","28.0011111","58.9005556","IR","12","`Abbasabad"
"1919435","36.5641667","61.14","IR","30","`Abbasabad"
"1919433","31.8988889","58.9211111","IR","30","`Abbasabad"
"1919422","33.8666667","48.3","IR","23","`Abbasabad"
"1919420","33.4658333","49.6219444","IR","23","`Abbasabad"
"1919438","33.5333333","49.9833333","IR","34","`Abbasabad"
"1919423","33.7619444","49.0747222","IR","24","`Abbasabad"
"1919419","34.2833333","49.2333333","IR","19","`Abbasabad"
"1919439","35.8833333","52.15","IR","35","`Abbasabad"
"1919417","35.9333333","52.95","IR","17","`Abbasabad"
"1919427","35.7341667","51.4377778","IR","26","`Abbasabad"
"1919425","35.1386111","51.6283333","IR","26","`Abbasabad"
"1919713","30.3705556","56.07","IR","29","`Abdolabad"
"1919711","27.9833333","57.7244444","IR","29","`Abdolabad"
"1919716","35.6025","59.2322222","IR","30","`Abdolabad"
"1919714","34.2197222","56.5447222","IR","30","`Abdolabad"

Дополнительные детали:

  • База данных PostgreSQL 8.4
  • Linux

Задача

Некоторые значения являются очевидными дубликатами («Абай», потому что регионы совпадают, и «Аб Барик», потому что два местоположения находятся в такой непосредственной близости), другие не столь очевидны (и могут даже не быть действительными дубликатами):

"1919430","27.4263889","57.5725","IR","29","`Abbasabad"
"1919435","36.5641667","61.14","IR","30","`Abbasabad"

Цель состоит в том, чтобы устранить все дубликаты.

Вопросы

Учитывая таблицу значений, таких как приведенные выше данные CSV:

  • Как бы вы удалили дубликаты?
  • Какие геоцентрические функции PostgreSQL вы бы использовали?
  • Какие еще критерии вы бы использовали для поиска дубликатов?

Обновление

Пример полуработающего кода для выбора дубликатов названий городов в одной и той же стране, которые находятся в непосредственной близости (в пределах 10 км):

select
  c1.country, c1.name, c1.region_id, c2.region_id, c1.latitude_decimal, c1.longitude_decimal, c2.latitude_decimal, c2.longitude_decimal
from
  climate.maxmind_city c1,
  climate.maxmind_city c2
where
  c1.country = 'BE' and
  c1.id <> c2.id and
  c1.country = c2.country and
  c1.name = c2.name and
  (c1.latitude_decimal <> c2.latitude_decimal or c1.longitude_decimal <> c2.longitude_decimal) and
  earth_distance(
    ll_to_earth( c1.latitude_decimal, c1.longitude_decimal ),
    ll_to_earth( c2.latitude_decimal, c2.longitude_decimal ) ) <= 10
order by
  country, name

Идеи

Двухфазный подход:

  1. Удалите очевидные дубликаты (той же страны, региона и названия города), удалив min (id).
  2. Уничтожьте тех, кто находится в непосредственной близости друг от друга, имеющих одинаковое имя и страну. Это может привести к удалению некоторых законных городов, но вряд ли к каким-либо последствиям.

Спасибо!

Ответы [ 3 ]

1 голос
/ 28 апреля 2011

Поиск дубликатов прост:

select
  max(id) as this_should_stay,
  latitude,
  longitude,
  country,
  region,
  city
FROM
  your_table
group by
  latitude,
  longitude,
  country,
  region,
  city
having count(*) > 1;

Добавление кода для удаления дубликатов на основе этого просто:

delete from your_table where id not in (
    select
      max(id) as this_should_stay
    FROM
      your_table
    group by
      latitude,
      longitude,
      country,
      region,
      city
)

обратите внимание на отсутствие наличия в запросе на удаление.

1 голос
/ 29 апреля 2011

При этом второй город удаляется в непосредственной близости от города с таким же названием в той же стране:

delete from climate.maxmind_city mc where id in (
select
  max(c1.id)
from
  climate.maxmind_city c1,
  climate.maxmind_city c2
where
  c1.id <> c2.id and
  c1.country = c2.country and
  c1.name = c2.name and
  earth_distance(
    ll_to_earth( c1.latitude_decimal, c1.longitude_decimal ),
    ll_to_earth( c2.latitude_decimal, c2.longitude_decimal ) ) <= 35
group by
  c1.country, c1.name
order by
  c1.country, c1.name
)
0 голосов
/ 28 апреля 2011

если ваши данные были импортированы через файлы CSV и с кодом (PHP), то вы можете предотвратить ввод дубликатов с условием вставки в коде PHP. если введенный вами город уже существует, то заставьте цикл перейти к следующей записи и пропустить текущую запись.

попробуйте, если вы следуете этим путем для импорта данных в базу данных.

Спасибо.

...