лучшая практика, чтобы начать проект анализа настроений? - PullRequest
0 голосов
/ 19 марта 2020

После того, как я провел много исследований об ИИ и анализе настроений, я нашел 2 способа сделать анализ текста.

После того, как предварительная обработка для текста завершена, мы должны создать классификацию, чтобы получить положительный результат. и отрицательный, так что мой вопрос лучше иметь пример:

первый путь:

  • 100 записей текста для обучения, который включает в себя 2 поля text & статус подан , который указывает, является ли его положительный 1 или отрицательный 0.

второй способ: 100 записей текста для обучения и составить словарь для мешок слова в Чтобы обучить и сравнить проверенные записи на основе этого пакета слова .

, если я ошибаюсь в своем вопросе, пожалуйста, сообщите мне и исправьте мой вопрос.

1 Ответ

0 голосов
/ 19 марта 2020

Я думаю, что вы можете что-то здесь упустить, поэтому для обучения модели анализа настроений у вас будут данные поезда, в каждой строке которых есть метка (положительная или отрицательная) и необработанный текст. Чтобы компьютер мог понять или «увидеть» текст, представив текст в виде числа (поскольку компьютер не может понять текст), один из способов представления текста в виде числа - использование пакета слов (существуют другие способы представляет текст как TF / IDF , WORD2VE C, et c.). Поэтому, когда вы тренируете модель с использованием последовательности данных, программа должна предварительно обработать необработанный текст, затем она должна составить (в этом случае) карту пакета слов, где каждая позиция элемента представляет один словарь, и она станет 1 или более, если слово существует в тексте и 0, если его не существует.

Теперь предположим, что обучение закончено, тогда программа выдает модель , эту модель вы сохраняете, поэтому, когда захотите чтобы проверить данные, вам не нужно заново обучать программу. Теперь, когда вы хотите проверить, да, вы будете использовать пакет слов для отображения данных train , предположим, что в наборе тестовых данных есть слово, которое никогда не встречалось в наборе данных train, тогда просто сопоставьте его как 0 .

короче:

, когда вы хотите проверить, вы должны использовать пакет отображения слов из последовательности данных

...