семантическая и синтаксическая производительность модели Doc2vec - PullRequest
0 голосов
/ 28 апреля 2018

Я пытаюсь проверить семантическую и синтаксическую производительность модели doc2vec - doc2vec_model.accuracy(questions-words), но, похоже, она не работает, поскольку models.deprecated.doc2vec - Глубокое изучение с параграфом 2vec , говорит, что это было устарело с версии 3.3.0 в пакете gensim. Оно выдает это сообщение об ошибке

AttributeError: 'Doc2Vec' object has no attribute 'accuracy'

Несмотря на то, что он хорошо работает с моделью word2vec, есть ли способ сделать это, кроме doc2vec_model.accuracy(questions-words)? или это невозможно?

1 Ответ

0 голосов
/ 28 апреля 2018

Несколько заметок:

Этот критерий «точности ()» является только тестом векторов слов для задач аналогии - его легко выполнить, он используется в ряде статей, но не окончательное решение о том, является ли набор слов-векторов лучше других для определенной цели. (Когда у меня был метод оценки для конкретного проекта, иногда векторы слов, которые лучше всего оценивают цели проекта, не получают лучших по этим аналогиям, особенно если векторы слов используются для классификации или информации. поисковое задание.)

Кроме того, популярный и быстрый режим PV-DBOW Doc2Vec (dm=0 в gensim) вообще не обучает векторы слов, если вы не добавите другую настройку (dbow_words=1). Такие неподготовленные слова-векторы будут находиться в случайных местах, ужасно выигрывая по точности аналогий.

Но, используя режим PV-DM (dm=1) или добавив dbow_words=1 к PV-DBOW, вы получите векторы слов из Doc2Vec, и вам все равно может потребоваться запустить тест на аналогии. К счастью, параметры оценки аналогии были сохранены и даже расширены для объекта KeyedVectors, который содержится в свойстве Doc2Vec wv. Вы можете вызвать старый accuracy() метод там:

https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.Word2VecKeyedVectors.accuracy

Но есть и немного другая оценка evaluate_word_pairs():

https://radimrehurek.com/gensim/models/keyedvectors.html#gensim.models.keyedvectors.WordEmbeddingsKeyedVectors.evaluate_word_pairs

(А в версии 4.0.0 будет [evaluate_word_analogies()][1], который заменяет `точность ().)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...