Поскольку модель Word2Vec
не сохраняет представления отдельных обучающих текстов, это полностью зависит от вас в вашем собственном коде Python.
Это не похоже на большие данные. (Для типичных Word2Vec
целей довольно просто иметь конечный словарь из 5260 слов.)
Если каждый текст (он же «предложение») очень длинный, вы можете даже просто использовать диктовку Python где каждый ключ - полная строка предложения, а значение - ваш флаг.
Но если, вероятно, ваши исходные данные имеют какой-то другой уникальный идентификатор для текста - например, уникальный ключ базы данных или даже номер строки / строки в каноническом представлении - вы должны использовать этот идентификатор в качестве ключа вместо.
На самом деле, если есть канонический порядок исходников ваших 6 925 текстов, вы можете просто получить список flags
с 6 925 элементами в порядке, где каждый элемент является вашим флагом. Когда вам нужно узнать статус текста с позиции n
, вы просто смотрите на flags[n]
.
(Чтобы сделать более конкретные c предложения, вам нужно будет добавить больше информации об исходном источнике данных и точно, когда и почему вам нужно будет проверить это дополнительное свойство позже.)