Я строю систему, которая часто обновляет свою локальную базу данных из других API. У меня есть Python-скрипты, заданные как задания cron, и они делают работу почти нормально.
Однако, один недостаток в том, что сценариям требуются целые годы. Когда они запускаются в первый раз, процесс выполняется быстро, но после этого требуется около 20 минут, чтобы просмотреть список из 200 000+ элементов, полученных от стороннего API.
Проблема в том, что сценарий сначала получает все строки из базы данных и добавляет их обязательное уникальное значение столбца в список. Затем, просматривая результаты API, он проверяет, существует ли в списке текущее значение must-be-unique. Это становится действительно тяжелым, так как список содержит более 200 тыс. Значений.
Есть ли способ проверить в INSERT
-запросе, что на основе одного столбца нет дубликатов? Если есть, просто не добавляйте новую строку.
Любая помощь будет оценена =)