Создание вектора слов из перчатки никогда не заканчивается, когда размер вакаба велик - PullRequest
0 голосов
/ 28 ноября 2018

С помощью VACAB_SIZE = 5000, выполняющего этот код, который создает векторы слов из перчаток, заканчивается примерно через 4 минуты.Когда я увеличиваю VOCAB_SIZE до 20000, оно никогда не заканчивается! (Это продолжалось в течение 40 минут, а затем я остановил его вручную, чтобы найти причину):

word_vector = {}
with open(r'glove.42B.300d.txt') as d:
    for line in tqdm.tqdm(d):
        values = line.split()
        word = ' '.join(values[:-300])
        if word in  idx_arr:
            coefs = np.asarray(values[-300:], dtype='float32')
            word_vector[word] = coefs
        if len(word_vector) == VOCAB_SIZE:
            break

Я не знаю, есть ли в коде какие-либо проблемыили это естественное поведение в перчатке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...