Я пытаюсь найти нечеткие совпадения с последовательностями белков и работаю над большим набором данных 500 000 элементов.Мне нужно будет получить нечеткие совпадения для каждого из этих 500 000 против всего набора данных (500 000).На каждую вещь уходит 1,5 секунды, а на запуск уходит несколько дней.
import regex
record = 'MAKKIVSDLDLLFSHLGKVKEESDKAKLTLRPVAEDLSKKLDKEVVFIIGGGMAYTFLKADKIDFAKDLLEKHGAKITKLFADELEGAHTVVWNGPMGVFEFGNFAQGTIGVCKAIANLKDAITIIGGGDSAAAAISLGFGK'
record_pattern = '('+record+')'+"{1<=e<=3}"
r = regex.compile(record_pattern)
newlist = list(filter(r.match, dict_keys_list)) #dict_keys_list is the 500,000 dataset
len_list = len(newlist)