Определение «настроения» текстовых фраз с помощью лексического анализа - PullRequest
6 голосов
/ 15 июня 2009

Я хочу применить оценки (положительные, отрицательные или нейтральные) к коротким фразам текста. Если не считать разбора смайликов и предположений, основанных на их использовании, я не уверен, что еще можно попробовать. Может ли кто-нибудь предоставить примеры, исследовательские работы, статьи и т. Д., Которые более лексически анализируют эту проблему.

Я думаю, что такие вещи, как использование наречий, неправильное использование / повторение знаков препинания, орфографические / грамматические ошибки могут быть приличными индикаторами настроения автора в почти двоичном смысле (хорошо или плохо).

Ответы [ 3 ]

3 голосов
/ 15 июня 2009

Это звучит как довольно четкая задача двоичной классификации, где вы можете упростить проблему до положительной или отрицательной, а затем принять наиболее энтропийные решения или те, которые не достигли порога достоверности, с помощью вероятности массы, установленной на нейтральную ,

Самым большим препятствием будет получение данных об обучении для метода стохастического машинного обучения. Вы можете легко сделать это с помощью легкодоступной модели максимальной энтропии, такой как Toolkit для расширенного дискриминационного моделирования или Mallet . Описанные вами функции просто необходимо отформатировать для входов, которые используют эти модели.

Чтобы получить данные об обучении, вы можете либо сделать какой-то платный краудсорсинг, такой как Amazon Mechanical Turk, либо просто сделать это самостоятельно, возможно, с помощью друга. Для этого вам понадобится много данных. Вы можете улучшить прогнозирующую силу вашей модели в свете недостатка данных с помощью таких подходов, как активное обучение, ансамбль или повышение, но важно как можно лучше проверить их на реальных данных и выбрать то, что лучше всего работает в практическое применение.

Если вы ищете документы для этого, вам нужно взглянуть на термин «анализ настроений» в Google Scholar. Ассоциация Вычислительной Лингвистики имеет много бесплатных и полезных статей из конференций и журналов, посвященных проблеме как с лингвистической, так и с алгоритмической точки зрения. Я также просмотрел бы их архивы. Удачи!

2 голосов
/ 15 июня 2009

Ну, скрытый семантический анализ (у вас тоже есть бумага ) кажется ближайшей хорошо известной областью исследования того, о чем вы говорите. Он менее «ориентирован на ценность» и более ориентирован на большие документы, но все же может иметь какое-то отношение к вашей проблеме.

0 голосов
/ 15 июня 2009

Это звучит как очень интересная идея - мне было бы интересно посмотреть, что из этого выйдет.

Я бы сказал, что пунктуация - это один из индикаторов, который вы можете использовать ...

  • ? - Вопрос
  • !?!? (или другой вариант) Неверие
  • ! с такими фразами, как глупые, идиотские и т. Д ... - Гнев
  • ... - нерешительность, сарказм

Вы также можете попробовать подобрать такие аббревиатуры, как ...

  • LOL - Смех (положительный)
  • WTF, OMG - Неверие, Шок
  • ИМО - Мышление, объяснение

Это явно довольно сложная вещь, которую вы хотите сделать, но звучит очень интересно.

...