Повышение точности классификации текста - PullRequest
0 голосов
/ 01 ноября 2018

Я пытаюсь найти модель для задачи классификации текста. Количество моих образцов составляет около 4500 предложений, каждое из которых имеет длину около 50 слов. Классы, которые я хочу классифицировать, - это 3, положительные, отрицательные и нейтральные. Я использовал машинное обучение (SVM, RF, LR) и получил точность не более 75% (я также выполнил предварительную обработку). Я хотел бы немного поработать с Deep Neural Nets и, возможно, рекуррентным, но я не знаю, с чего начать. Каковы ваши предложения для достижения максимальной точности? и сколько точности я должен ожидать? (p.s Я использую Python)

Ответы [ 2 ]

0 голосов
/ 01 ноября 2018

Классификация положительных / отрицательных / нейтральных текстов / рецензий является довольно распространенной задачей, и в Интернете имеется множество наборов данных. Вы можете использовать некоторые из них и расширить свой тренировочный набор данных. Или попробуйте использовать предварительно подготовленные модели на их основе.

0 голосов
/ 01 ноября 2018

4500 предложений по 50 слов в длину - недостаточно для глубокой архитектуры. Вы можете попытаться понять это, но я не думаю, что это сработает.
С этим объемом данных я предлагаю вам больше усилий уделить настройке параметров и внедрению слов для алгоритма, который вы пробовали (SVM, RF, ...). Как вы представляли свои данные в числовом пространстве? Хорошее вложение с использованием новейшего метода все еще может показать великолепные результаты.
На вопрос об ожидании точности, если я не видел данные, я никак не мог бы сообщить вам эту информацию. Но, исходя из собственного опыта, проблема классификации текста по 3 классам, не слишком длинная для каждого предложения, может быть решена с точностью от 80 до 90% или даже 98%. Это сильно зависит от сути ваших данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...