У меня есть фрейм данных с этими значениями в одном из столбцов:
df.Sample
POLSD233123
POLRR419910
POLAG002144
DEUOD002139
MEDOW203919
...
И я создаю список из другого df только с числовой частью числа (другая база): например
more = [419910, 983129,9128412,5353463,203919]
Итак, в списке у меня есть два числа, существующих в кадре данных. Мне нужно создать список общих и необычных значений.
Когда у меня будет общее, я тоже буду создавать необычное. Я просто пишу простой цикл в Python:
listOfRepetitionBase_SNPS = []
for i in range(len(more)):
temp = baza[baza['Sample'].str.contains(more[i])]
if len(temp) > 0:
listOfRepetitionBase_SNPS.append(temp)
else:
print("no that record in base,", more[i])
И это работает ... но фрейм данных имеет 90ххх сэмплов, и один запуск занимает 5-10 минут на обработку. Может кто-нибудь дать мне совет, как сделать этот процесс быстрее, может быть, с помощью панд?
Результат в этом случае должен быть:
listOfRepetitionBase_SNPS = 419910, 203919
uncommon = 983129,9128412,5353463