Выполнение иерархического анализа настроений с помощью LingPipe - PullRequest
1 голос
/ 21 сентября 2011

Это в контексте анализа настроений с использованием инструмента машинного обучения LingPipe.Я должен классифицировать, если предложение в большом параграфе имеет положительное / отрицательное мнение.Мне известен следующий подход в LingPipe

  1. Классифицировать, если полный абзац основан на его полярности - отрицательный или положительный.

    Здесь я еще не знаю полярностина уровне предложения.Мы все еще на уровне абзаца.Как определить полярность на уровне предложения абзаца, является ли предложение в абзаце положительным / отрицательным предложением?Я знаю, что LingPipe способен классифицировать, если предложение субъективно / объективно.Поэтому используя этот подход ,,,,

    ,,,, я должен

  2. Сначала обучить LingPipe большому набору предложений, которые являются субъективными / объективными.

  3. Используйте обученную модель для извлечения всех субъективных предложений из тестового абзаца.
  4. Обучите классификатор LingPipe на основе извлеченных субъективных предложений для полярности, вручную пометив их как положительные / отрицательные.
  5. Теперь использовали модель обученной полярности и задали тестовое субъективное предложение (что делается путем передачи предложения через обученную субъективную / объективную) модель, а затем определили, является ли утверждение положительным / отрицательным?

    Работает ли вышеуказанный подход?В предложенном выше подходе мы знаем, что LingPipe способен принимать большой текстовый контент (абзац) для классификации полярности.Будет ли это хорошо, если мы просто передадим одно субъективное предложение для классификации полярности?Я в замешательстве!

Ответы [ 2 ]

2 голосов
/ 25 сентября 2011

Возможно, вы захотите взглянуть на подходы многоуровневого анализа в литературе, например,

Li, S., et al. (2010). «Использование комбинированной многоуровневой модели для анализа чувств документа», Международная конференция по распознаванию образов 2010 года.

Ессеналина А. и др. (2010). «Многоуровневые структурированные модели для классификации настроений на уровне документов», Материалы конференции 2010 года по эмпирическим методам обработки естественного языка, стр. 1046–1056, MIT, Массачусетс, США, 9–11 октября 2010 года.

Многоуровневый подход к анализу довольно распространен при поиске информации, как и при индексировании контента для поиска сходства векторного пространства.

Среды, такие как Ling Pipe, являются хорошим способом для начала работы, но в конечном итоге вам необходимо использовать более мелкие, мелкозернистые инструменты, такие как предложенный Юрой.

1 голос
/ 22 сентября 2011

Большинство библиотек машинного обучения, включая lingpipe, основаны на строках (объект с плоскими элементами).Поэтому, если вы хотите провести некоторую иерархическую классификацию, вам следует денормировать ваши данные.например, вы можете иметь функции paragrahp и предложения в одном наборе функций.Если вы используете только классификацию слов, вы можете создать такие функции PARGRAPH_WORDX = true, SENTENCE_WORDX = true.Некоторые другие наборы инструментов позволяют вам выразить вашу модель без денормализации, это так называемые графические модели, например CRF, ACRF, Марковские модели и т. Д. Реализация тех, которые вы можете найти в Mallet и Factorie.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...