Question

Я пытаюсь найти нечеткие совпадения с последовательностями белков и работаю над большим набором данных 500 000 элементов.Мне нужно будет получить нечеткие совпадения для каждого из этих 500 000 против всего набора данных (500 000).На каждую вещь уходит 1,5 секунды, а на запуск уходит несколько дней.

import regex
record = 'MAKKIVSDLDLLFSHLGKVKEESDKAKLTLRPVAEDLSKKLDKEVVFIIGGGMAYTFLKADKIDFAKDLLEKHGAKITKLFADELEGAHTVVWNGPMGVFEFGNFAQGTIGVCKAIANLKDAITIIGGGDSAAAAISLGFGK'
record_pattern = '('+record+')'+"{1<=e<=3}"
r = regex.compile(record_pattern)
newlist = list(filter(r.match, dict_keys_list)) #dict_keys_list is the 500,000 dataset
len_list = len(newlist)

ускорение нечеткого сопоставления строк с помощью модуля регулярных выражений для большого набора данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

ускорение нечеткого сопоставления строк с помощью модуля регулярных выражений для большого набора данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы