Перечислите в словарном цикле много времени, как улучшить скорость - PullRequest
0 голосов
/ 27 мая 2019

Я использую python-3.x, и я хотел бы ускорить мой код, где в каждом цикле я создаю новые значения и проверяю, существуют ли они в словаре или нет, с помощью (проверьте, если) тогда я буду хранить индекс там, где он найден, если он существует в словаре. Я использую перечисление, но это занимает много времени и это очень понятный способ. есть ли способ ускорить мой код, используя другой способ, или в моем случае перечисление - единственный способ, с которым мне нужно работать? Я не уверен, что в моем случае использование numpy будет лучше.

Вот мой код:

# import numpy
import numpy as np

# my first array
my_array_1 = np.random.choice ( np.linspace ( -1000 , 1000 , 2 ** 8 ) , size = ( 100 , 3 ) , replace = True )
my_array_1 = np.array(my_array_1)




# here I want to find the unique values from my_array_1
indx = np.unique(my_array_1, return_index=True, return_counts= True,axis=0)


#then saved the result to dictionary
dic_t= {"my_array_uniq":indx[0], # unique values in my_array_1
       "counts":indx[2]} # how many times this unique element appear on my_array_1


# here I want to create random array 100 times 
for i in range (100):

    print (i)

    # my 2nd array
    my_array_2 = np.random.choice ( np.linspace ( -1000 , 1000 , 2 ** 8 ) , size = ( 100 , 3 ) , replace = True )
    my_array_2 = np.array(my_array_2)


#   I would like to check if the values in my_array_2 exists or not in the dictionary (my_array_uniq":indx[0])
#   if it exists then I want to hold the index number of that value in the dictionary and
#    add 1 to the dic_t["counts"], which mean this value appear agin and cunt how many.
#   if not exists, then add this value to the dic (my_array_uniq":indx[0])
#    also add 1 to the dic_t["counts"]
    for i, a in enumerate(my_array_2):

        ix = [k for k,j in enumerate(dic_t["my_array_uniq"]) if (a == j).all()]    
        if ix:

            print (50*"*", i, "Yes", "at", ix[0])     
            dic_t["counts"][ix[0]] +=1    

        else:
#            print (50*"*", i, "No")        
            dic_t["counts"] =  np.hstack((dic_t["counts"],1))
            dic_t["my_array_uniq"] = np.vstack((dic_t["my_array_uniq"], my_array_2[i]))

объяснение:

1- I will create an initial array.
2- then I want to find the unique values, index and count from an initial array by using (np.unique).
3- saved the result to the dictionary (dic_t)
4- Then I want to start the loop by creating random values 100 times.
5- I would like to check if this random values in my_array_2 exist or not in the dictionary (my_array_uniq":indx[0])
6- if one of them exists then I want to hold the index number of that value in the dictionary.
7 - add 1 to the dic_t["counts"], which mean this value appears again and count how many.
8- if not exists, then add this value to the dic as new unique value (my_array_uniq":indx[0])
9 - also add 1 to the dic_t["counts"]

1 Ответ

1 голос
/ 27 мая 2019

Итак, из того, что я вижу, вы

  • Создание 256 случайных чисел из линейного распределения чисел от -1000 до 1000
  • Генерация 100 триплетов из них (может быть меньше 100 из-за unique, но с подавляющей вероятностью это будет ровно 100)
  • Затем делаю примерно одно и то же 100 раз и каждый раз проверяю для каждого из триплетов в новом списке, существуют ли они в старом списке.
  • Затем вы пытаетесь подсчитать, как часто встречается каждый элемент.

Мне интересно, почему вы пытаетесь это сделать, потому что для меня это не имеет особого смысла, но я дам несколько советов:

  • Нет смысла делать словарь dic_t, если вы собираетесь хранить только объекты в нем, просто используйте две переменные my_array_uniq и counts
  • Вы имеете дело с тройками чисел с плавающей запятой. В данном диапазоне это должно дать вам около 10 ^ 48 различных возможных триплетов (я могу ошибаться в точном числе, но в любом случае это абсурдно большое число). То, как вы их генерируете, значительно уменьшает общее фазовое пространство, но этого недостаточно. Вероятность нахождения идентичных очень и очень мала.
  • Если у вас есть набор объектов (в данном случае число триплетов), и вы хотите определить, видели ли вы данный объект ранее, вы хотите использовать наборы. Наборы могут содержать только неизменяемые объекты, поэтому вы хотите превратить свои тройки в кортежи. Определение того, содержится ли данный триплет в вашем наборе, является операцией O (1).
  • Для подсчета количества вхождений sth, коллекций. Основой является естественная структура данных для использования.
...