лучше анализ настроений с помощью tf-idf, word2ve c или bert? - PullRequest
0 голосов
/ 04 февраля 2020

прямо сейчас я пытаюсь сделать анализ настроений датафрейм выглядит так

  1. я счастлив 1
  2. im sad 2

в этом случае я использовал doc2ve c для представления каждой метки но работает ли Bert для анализа настроений?

в чем главное отличие doc2ve c и bert?

Ответы [ 2 ]

0 голосов
/ 11 февраля 2020

Берт для вложения предложений. Если вы смотрите на предложения с сильными шаблонами syntacti c, используйте BERT. Word2vec / skipgrams предназначены для предложений со значительными токенами. Если вы смотрите предложения, содержащие строго semanti c слова, которые имеют значение для их классификации, используйте Word2ve c. Тфидф - грубая сила. Если вы выполняете какое-то обучение под наблюдением или под надзором и маркируете слова / шаблоны поиска, используйте Tfidf.

0 голосов
/ 06 февраля 2020

Ну, вам нужно проверить, какой метод соответствует вашим потребностям. Но я думаю, что Берт, скорее всего, будет лучше. Недостаток берта в том, что он дороже. Поэтому, если ваша задача чувствительна ко времени, вы должны сбалансировать скорость с точностью.

Также обратите внимание, что bert предварительно обучен, так что вы, вероятно, получите хорошие результаты всего с несколькими тысячами выборок для тонкой настройки. С другой стороны, нет хорошей предварительно подготовленной модели doc2ve c, поэтому вы должны обучить ее самостоятельно, а затем обучить классификатор с этими векторами документов. посмотрите также, например, fastSent или InferSent .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...