Могу ли я использовать VaderSentiment для расчета полярности и субъективности на другом языке, кроме английского sh? - PullRequest
0 голосов
/ 30 апреля 2020

Я пытаюсь создать проект nlp, который вычисляет полярность и субъективность для текстов, которые не являются Engli sh, поэтому я могу использовать 2 инструмента: Vader - Textblob .

После того, как я провел много исследований, я обнаружил, что Vader более эффективен и точен для социальных сетей.

Мой вопрос: могу ли я добавить язык в Vader для вычисления socres? или это пакет для vader, похожий на мультиязычный?

Для проекта я читаю из файла csv и импортирую его в dataframe pandas, чем предварительно обрабатываю и очищаю текст, а затем анализирую его, чтобы извлечь чувства.

Буду признателен за любую помощь.

1 Ответ

0 голосов
/ 30 апреля 2020

Согласно документации , Vader использует два ресурса:

  1. словарь токенов с их оценками настроений
  2. набор правил syntacti c правил которые определяют отношения между словами

Хотя вы можете создавать свои собственные ресурсы для других языков, но авторы утверждают, что

Вручную создавая (намного реже проверяя) всеобъемлющий словарный запас - трудоемкий и иногда подверженный ошибкам процесс

Так что, пока это возможно, это будет нелегко. Файл лексики, который поставляется с Vader, содержит всего 8000 записей. Я не знаю, насколько легко их генерировать: возможно, существует компромисс между быстрым достижением широкого охвата и точностью результатов. Возможно, вы можете сначала go для покрытия, а затем постепенно улучшать точность, изменяя записи соответствующим образом.

Правила syntacti c (из беглого взгляда) в основном описывают наречия, и увеличивают ли они или уменьшить настроение Опять же, это то, что должно быть скорректировано, так как оно жестко задано для Engli sh в исходном файле. Зависит от того, насколько грамматически ваш целевой язык отличается от английского sh, насколько простой или сложной будет эта задача.

...