У меня есть два CSV.Одним из них является файл имен.(~ 1000 строк) Другая - это вкладка, разделенная различной информацией о разных людях, в которой в колонке 7 содержатся их имена.(~ 2000000 строк)
Я хочу найти дубликаты имен между этими файлами.
На данный момент я вводю имена из первого файла в список, а затем проверяю строку построка в другом файле, чтобы увидеть, совпадает ли имя строки с любым в списке.Если так, я вывожу это как дубликат.Я знаю, что не оптимально читать построчно 2 миллиона строк, поэтому мне интересно, если бы вы, ребята, сделали что-то другое.
newList = []
otherList = []
with open('listofnames.csv') as f:
for line in f:
newList.append(line)
for x in files:
with open('%s' % x) as f:
next(f)
for line in f:
y = (((line.strip('\n')).split(','))[7]
if y in newList:
print(y)
Это напечатало только одно повторяющееся имя 32 раза.