Я думаю, что вы можете что-то здесь упустить, поэтому для обучения модели анализа настроений у вас будут данные поезда, в каждой строке которых есть метка (положительная или отрицательная) и необработанный текст. Чтобы компьютер мог понять или «увидеть» текст, представив текст в виде числа (поскольку компьютер не может понять текст), один из способов представления текста в виде числа - использование пакета слов (существуют другие способы представляет текст как TF / IDF , WORD2VE C, et c.). Поэтому, когда вы тренируете модель с использованием последовательности данных, программа должна предварительно обработать необработанный текст, затем она должна составить (в этом случае) карту пакета слов, где каждая позиция элемента представляет один словарь, и она станет 1 или более, если слово существует в тексте и 0, если его не существует.
Теперь предположим, что обучение закончено, тогда программа выдает модель , эту модель вы сохраняете, поэтому, когда захотите чтобы проверить данные, вам не нужно заново обучать программу. Теперь, когда вы хотите проверить, да, вы будете использовать пакет слов для отображения данных train , предположим, что в наборе тестовых данных есть слово, которое никогда не встречалось в наборе данных train, тогда просто сопоставьте его как 0 .
короче:
, когда вы хотите проверить, вы должны использовать пакет отображения слов из последовательности данных