Машинное обучение без присмотра vs sentimentR - PullRequest
0 голосов
/ 08 мая 2019

В настоящее время я использую sentimentR для обозначения политических текстов (150-400 слов), и до сих пор это не слишком хорошо (точность составляет около 50 - 60% в зависимости от того, насколько я щедр при чтении текстов).Кто-то порекомендовал мне заняться машинным обучением без присмотра (предлагая попробовать GP и / или нейронные сети).

Я не хочу изобретать велосипед здесь, поэтому мне интересно, концептуально, в чем разница между использованием подхода ML и SentimentR?Можно ли ожидать лучших результатов от первого и, если да, то насколько лучше (то есть рейтинг точности 60-70%)?

Спасибо

1 Ответ

0 голосов
/ 08 мая 2019

Работа с текстами требует очень надежных обучающих данных, которые хорошо маркированы.Неважно, что вы используете.Единственным плюсом использования нейронных сетей является то, что он способен лучше расшифровать отношения между словами, чем другие.Такие библиотеки, как Stanford CoreNLP, будут работать лучше из-за помеченных данных, которым они подвергаются.Документация sentimentR обеспечивает сравнение с Stanford CoreNLP, ссылкой .

Что касается точности, то это больше о том, насколько хорошо вы предварительно обработали свой текст перед использованием любой библиотеки.Все эти шаги относятся к вашему набору данных, например, к списку stopwords, чтобы вы не потеряли важные слова перед передачей в библиотеку.

...