С помощью VACAB_SIZE = 5000
, выполняющего этот код, который создает векторы слов из перчаток, заканчивается примерно через 4 минуты.Когда я увеличиваю VOCAB_SIZE
до 20000, оно никогда не заканчивается! (Это продолжалось в течение 40 минут, а затем я остановил его вручную, чтобы найти причину):
word_vector = {}
with open(r'glove.42B.300d.txt') as d:
for line in tqdm.tqdm(d):
values = line.split()
word = ' '.join(values[:-300])
if word in idx_arr:
coefs = np.asarray(values[-300:], dtype='float32')
word_vector[word] = coefs
if len(word_vector) == VOCAB_SIZE:
break
Я не знаю, есть ли в коде какие-либо проблемыили это естественное поведение в перчатке.