Это звучит как довольно четкая задача двоичной классификации, где вы можете упростить проблему до положительной или отрицательной, а затем принять наиболее энтропийные решения или те, которые не достигли порога достоверности, с помощью вероятности массы, установленной на нейтральную ,
Самым большим препятствием будет получение данных об обучении для метода стохастического машинного обучения. Вы можете легко сделать это с помощью легкодоступной модели максимальной энтропии, такой как Toolkit для расширенного дискриминационного моделирования или Mallet . Описанные вами функции просто необходимо отформатировать для входов, которые используют эти модели.
Чтобы получить данные об обучении, вы можете либо сделать какой-то платный краудсорсинг, такой как Amazon Mechanical Turk, либо просто сделать это самостоятельно, возможно, с помощью друга. Для этого вам понадобится много данных. Вы можете улучшить прогнозирующую силу вашей модели в свете недостатка данных с помощью таких подходов, как активное обучение, ансамбль или повышение, но важно как можно лучше проверить их на реальных данных и выбрать то, что лучше всего работает в практическое применение.
Если вы ищете документы для этого, вам нужно взглянуть на термин «анализ настроений» в Google Scholar. Ассоциация Вычислительной Лингвистики имеет много бесплатных и полезных статей из конференций и журналов, посвященных проблеме как с лингвистической, так и с алгоритмической точки зрения. Я также просмотрел бы их архивы. Удачи!