Как решить неоднозначность в анализе настроений? - PullRequest
0 голосов
/ 15 мая 2018

Я довольно новичок в области интеллектуального анализа текста, и сегодня я ставлю перед собой задачу провести анализ настроений.Но я сталкиваюсь с некоторыми проблемами во время анализа настроения.В моем языке слово может иметь несколько разных значений.Как «сетан» означает: 1) дьяволы 2) ругательства.Как решить эту двусмысленность в анализе настроений?Также для всеобщего сведения, алгоритм, который я использую, является наивным байесовским классификатором.А для инструментов я использую RapidMiner.Мне нужна ваша помощь.Любые советы будут великолепны.Спасибо!

1 Ответ

0 голосов
/ 15 мая 2018

Обучение ваших данных наивному байесовскому классификатору заставит модель назначить вероятность для каждого слова для каждого отдельного класса, который вы пытаетесь классифицировать. В вашем случае, поскольку это анализ настроений, если у вас есть два положительных и отрицательных класса, у вас будет вероятность, что setan будет положительным и отрицательным.

Имея это в виду, если слово имеет несколько значений, которые могут объяснить как положительные, так и отрицательные чувства, я бы сказал, что обязательно включите оба типа случаев в ваши данные, чтобы при обучении модели использовались соответствующие вероятности классифицировать новый текст в положительный или отрицательный класс.

В вашем случае кажется, что оба значения setan имеют отрицательную коннотацию, которая на самом деле не должна быть проблемой. Такие слова, как «the», «a», которые присутствуют как в положительных, так и в отрицательных случаях, которые, как известно, называются стоп-словами, должны быть удалены, поскольку они не учитываются при классификации.

В вашем случае, если вы пытаетесь обучить модель, используя их конкретные значения, вы можете обратиться к этому документу https://pdfs.semanticscholar.org/fc01/b42df3077a512620456d8a2714951eccbd67.pdf.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...