Анализ неконтролируемых настроений с использованием doc2vec - PullRequest
0 голосов
/ 09 ноября 2018

Люди,

Я искал в Google разные типы статей, блогов, учебников и т. Д., Но не нашел ничего полезного. Буду признателен, если кто-нибудь сможет мне помочь. Обратите внимание, что я прошу не шаг за шагом, а скорее идею / блог / статью или какой-нибудь учебник.

Вот мое постановление проблемы:

Так же, как анализ настроений используется для выявления положительного и Отрицательный тон предложения, я хочу узнать, является ли предложение прогнозное (будущее) заявление или нет.

Я не хочу использовать подход «мешок слов» для суммирования количества прогнозируемых слов / фраз, таких как «вперед» , « в ближайшем будущем » или « Через 5 лет » и т. Д. Я не уверен, что можно использовать word2vec или doc2vec. Пожалуйста, просветите меня.

Спасибо.

1 Ответ

0 голосов
/ 10 ноября 2018

Кажется, что вы заинтересованы в поиске временных утверждений в текстах.

Не уверен в вашем окончательном выводе, но давайте предположим, что вы хотите найти временные фразы или предложения, которые их содержат.

Одна методология может быть следующей:

  1. Создать список временных терминов [дни, годы, месяцы, сейчас, позже]
  2. Выберите только предложения с ключевыми словами
  3. Используйте предложения в модели doc2vec
  4. Вывести вектор и использовать метрику расстояния для нового предложения.
    • GMM Cluster + Limit
    • Расстояние от среднего

Другая методология может быть:

  1. Создать список временных терминов [дни, годы, месяцы, сейчас, позже]
  2. Извлечение словосочетания Биграм и Триграм
  3. Хранить соответствующие словосочетания с временными терминами
  4. Используйте соответствующие словосочетания в виде bag-of-collocations подхода
    • Соответствующие векторы двоичных объектов для соответствующих коллокаций
    • Тренируйте классификатор для распознавания текста более высокого уровня

Это звучит как хороший пример для подхода начальной загрузки, если у вас много текстов.

Обе они на самом деле частично контролируются, поскольку существует некоторая потребность в поиске начальных временных терминов, но даже это может быть автоматизировано с использованием схемы word2vec и начальной загрузки

...