У меня есть список, где каждый элемент представляет собой комбинацию двух идентификаторов событий: (Это просто фрагмент гораздо большего списка пар)
['10000381 10007121', '10000381 10008989',' 10005169 10008989 ',' 10008989 10023817 ',' 10005169 10043265 ',' 10008989 10043265 ',' 10023817 10043265 ',' 10047097 10047137 ',' 10047097 10047265 ',' 10047137 10047265 ',' 1003655656 1003453 1003453 1003455563) 1003456 1003455563) 1003455 1003455563) 10033056 1003455 100345530561 1003455 1003455303 1003456 1003455 1003455 1003 1003 1003 1003455 1003455303 '1003456 100345630' '100003856' ',' 10005169 10008989 ',' 10008989 10023817 ',' 10005169 10043265 ',' 10008989 10043265 ',' 10023817 10043265 ',' 10047097 10047137 ',' 10047097 10047265 '',' 10000381 10060557 ',' 10007121 10060557 ',' 10056453 10060557 ',' 10000381 10066013 ',' 10007121 10066013 ',' 10008989 10066013 ',' 10026233 10066013 ',' 10056453 10066013 ',' 10056453 100015 1001 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1003 1001 1003',' 10066013 10070153 ',' 10000381 10083798 ',' 10047265 10083798 ',' 10056453 10083798 ',' 10066013 10083798 ',' 10000381 10099969 ',' 10056453 10099969 ',' 10066013 10099969 ',' 1007 '1009 9999999',' 10056453 10167029 ',' 10066013 10167029 ',' 10083798 10167029 ',' 10099969 10167029 ',' 10182073 10182085 ',' 10182073 10182177 ',' 10182085 10182177 ',' 10000381 10187233 ',' 100564530187233 ',' 10060557 10187233 ',' 10066013 10187233 ',' 10083798 10187233 ',' 10099969 10187233 ',' 10167029 10187233 ',' 10007121 10200685 ',' 10099969 10200685 ',' 10066013 10218350 '' 10214005 '10214005' 10214005 '10214305' 10214005 '10214005' 10214005 '10214005' 10214005 '10214005' 10214005 '10214003' 10214003 '10214003' 10214003 '' 10214003 '' 10 '' 10 100%*
Мне нужно найти каждый экземпляр каждой пары идентификаторов и внести его в новый список.Прямо сейчас у меня есть несколько строк кода, которые делают это для меня.Тем не менее, мой список содержит более 2 000 000 строк и будет увеличиваться по мере обработки данных.
На данный момент расчетное время завершения составляет около 2 дней.
Мне просто нужен гораздо более быстрый метод для этого.
Я работаю в Jupyter Notebooks (на ноутбуке Mac)
def compiler(idlist):
groups = []
for i in idlist:
groups.append([index for index, x in enumerate(idlist) if x == i])
return(groups)
Я также попробовал:
def compiler(idlist):
groups = []
for k,i in enumerate(idlist):
position = []
for c,j in enumerate(idlist):
if i == j:
position.append(c)
groups.append(position)
return(groups)
Что-то, что я хочу, - это что-токак это:
'10000381 10007121': [0]'10000381 10008989': [1]'10005169 10008989': [2, 384775, 864173, 1297105, 1321798, 1555094, 1611064, 2078015]'10008989 10023817': [3, 1321800]'10005169 10043265': [4, 29113, 864195, 1297106, 1611081][5, 864196, 2078017]'10008989 10043265': [6, 29114, 384777, 864198, 1611085, 1840733, 2078019]'10023817 10043265': [7, 86626, 384780, 504434, 792690, 864215, 1297108, 1321801, 1489784, 1524527, 1555096, 1595763, 1611098, 1840734, 1841280, 1929457, 1943701, 1983362, 21997, 20938), 20938.и т. д. и т. п.
Где каждое число в скобках является индексом этой пары в idlist.
По сути, я хочу, чтобы он посмотрел на пару значений id (т. е. 10000381 10007121'), проходит по списку и находит каждый экземпляр этой пары и документирует каждый индекс в списке, в котором встречается эта пара.Мне нужно что-то, что делает это для каждого элемента в списке.В более короткие сроки.