Согласно документации , Vader использует два ресурса:
- словарь токенов с их оценками настроений
- набор правил syntacti c правил которые определяют отношения между словами
Хотя вы можете создавать свои собственные ресурсы для других языков, но авторы утверждают, что
Вручную создавая (намного реже проверяя) всеобъемлющий словарный запас - трудоемкий и иногда подверженный ошибкам процесс
Так что, пока это возможно, это будет нелегко. Файл лексики, который поставляется с Vader, содержит всего 8000 записей. Я не знаю, насколько легко их генерировать: возможно, существует компромисс между быстрым достижением широкого охвата и точностью результатов. Возможно, вы можете сначала go для покрытия, а затем постепенно улучшать точность, изменяя записи соответствующим образом.
Правила syntacti c (из беглого взгляда) в основном описывают наречия, и увеличивают ли они или уменьшить настроение Опять же, это то, что должно быть скорректировано, так как оно жестко задано для Engli sh в исходном файле. Зависит от того, насколько грамматически ваш целевой язык отличается от английского sh, насколько простой или сложной будет эта задача.