Я использую apache mahout для выполнения анализа настроений в домене поддержки клиентов.Поскольку я не могу получить надлежащий набор данных для тренировок, я сделал свой собственный.Теперь у меня есть 100 писем поддержки для положительных настроений и 100 для отрицательных.
Но проблема в том, что я не могу достичь точности.Это остается где-то около 55%, что жалко.Точность около 70% и выше будет удовлетворительной.Также обратите внимание, что я использую бесплатный наивный байесовский классификатор apache mahout.
Точнее говоря, является ли меньший размер набора данных, который снижает точность?Если нет, то где мне настроить?