Какой эффективный способ найти дубликаты в CSV-файле содержит миллионы записей с использованием Python? - PullRequest
0 голосов
/ 26 января 2019

У меня есть CSV-файл содержит миллион строк.Я хочу преобразовать его в базу данных в стиле sql, используя библиотеку sqlite в python.Таблица должна иметь определенный столбец в качестве первичного ключа, но этот столбец содержит некоторые дубликаты, и мне нужно удалить столбец с дубликатами.Прямо сейчас я создал набор и проверяю каждый раз, что занимает пространство O (n) и O (n), есть ли более эффективный способ найти дублирующийся столбец из миллионов записей с точки зрения сложности времени и пространства?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...