Я давно работаю над проблемой классификации текста, и у меня возникла проблема с интерпретацией результатов и дальнейших действий.
Я работал над твитами, пытаясь классифицировать их.если они насильственные или нет.
результаты, которые равны
для набора данных размером 1763 (pos: 214, neg: 1549), обучение составляет 1234 (pos: 152, neg: 1082)И ТЕСТ установлен 529 (поз .: 62, отриц: 469)
баллы AUC на тестовом наборе с функциями BOW SVM: 0,69 LR: 0,67 1 слой NN: 0,69
Я не могу интерпретироватьс точки зрения, если проблема заключается в наличии или данных или изменения модели.Я думаю, что, поскольку разные модели дают схожие результаты, это означает, что мне нужно больше данных с лучшим качеством и больше положительных примеров.
Я также не знаю, что мне делать дальше.
Спасибо,