Метод accuracy()
для модели gensim
слов-векторов (теперь не подходит по сравнению с evaluate_word_analogies()
) не принимает ваши тексты в качестве входных данных - для этого требуется специально отформатированный файлслово-аналогия вызовы.Этот файл часто называют questions-words.txt
.
. Это популярный способ тестирования текстовых векторов общего назначения, начиная с оригинальной статьи Word2Vec и выпуска кода от Google.
Однако эта оценка не обязательно указывает, какие словосочетания будут наилучшими для ваших потребностей.(Например, для набора векторов слов можно получить лучшие результаты по аналогиям такого рода, но хуже для конкретной классификации или цели поиска информации.)
Для хороших векторов для ваших собственных целей,Вы должны разработать некоторую оценку для конкретной задачи, которая дает оценку, соотнесенную с успехом в достижении вашей конечной цели.
Кроме того, обратите внимание, что в качестве неконтролируемого алгоритма для векторов слов не обязательно требуется набор тестов с задержкой для оценки.Как правило, вы хотите использовать как можно больше данных для обучения слов-векторов - обеспечивая максимальный словарный запас, с наибольшим количеством примеров на слово.Затем вы можете проверить векторы слов по какому-то внешнему стандарту - например, по вопросам аналогии, которые вообще не были частью обучения.
Или вы просто использовали бы векторы слов в качестве дополнительного ввода для некоторой задачи, выполняемой в нисходящем направлении, и в этой задаче, находящейся ниже, вы отказались бы от набора тестов из того, что использовалось для обучения некоторого контролируемого алгоритма.,Это гарантирует, что ваш контролируемый метод не просто запоминает / переоснащает помеченные входы, и дает вам косвенный качественный сигнал о том, помог ли этот набор слов-векторов последующей задаче или нет.(И этот набор слов-векторов можно сравнивать с другими на основании того, насколько хорошо они помогают выполнять эту другую контролируемую задачу, а не против своего же шага обучения без присмотра.)