У меня совсем нет опыта в анализе настроений или обработке естественного языка, но я немного читал об этом в свободное время. Я хотел бы провести и поэкспериментировать, чтобы проанализировать цепочки / комментарии на форуме, такие как reddit, digg, блоги и т. Д. Я особенно заинтересован в том, чтобы подсчитывать количество «за», «против» и «нейтральных» комментариев для потоков горячей и политической информации дебаты. Вот что я думаю.
1) Найдите ветку, в которой в оригинальном плакате была задокументирована политическая или религиозная тема.
2) Для каждого комментария классифицируйте его как поддержку оригинального постера или иное принятие противоречивой или нейтральной позиции.
3) Сравните различные средства с количеством аргументов «за» или «против», чтобы определить, какие платформы являются хорошими «дискуссионными платформами» (т.е. сбалансированное количество аргументов).
Одна большая проблема, которую я ожидаю, состоит в том, что горячие темы вызовут сильную реакцию как сторонников, так и противоречащих друг другу сторон, поэтому простой анализ настроения «счастливые / грустные» не поможет. Я просто заинтересован в этом проекте для своего собственного любопытства, поэтому, если кто-нибудь знает о подобных исследованиях или утилитах для проведения этого эксперимента, мне было бы интересно узнать больше.
Может ли кто-нибудь порекомендовать хороший анализ настроений, словарь слов, тренировочный набор и т. Д. Для этой задачи?