Простой способ начать - это что-то вроде следующего (при условии, что порядок слов не важен для вашего алгоритма классификации).
Сначала вы бы вручную классифицировали несколько предложений. Это ваш тренировочный набор данных. Как правило, чем больше предложений вы классифицируете вручную для каждого класса, тем выше точность. Для такого контролируемого подхода, имейте в виду, что единственные выбранные функции будут из ваших классифицированных вручную предложений. Каждая из ваших функций - это уникальная комбинация слова / POS для всех ваших предложений обучения.
Наконец, вы должны выбрать алгоритм выбора объекта. Их много, но популярным является хи-квадрат. Некоторые другие - это информационный прирост, взаимная информация и т. Д. Используя хи-квадрат, вы измеряете зависимость переменной класса от каждой функции в отдельности. Вы должны выбрать некоторый порог, например, верхние 10% функций с наименьшим значением хи-квадрат, и оставить эти функции для последующего использования только в своем классификаторе.
Выбор алгоритма выбора функции важен и должен отражать алгоритм, который вы используете. Например, хи-квадрат хорош, когда вы хотите найти функции, которые как положительно, так и отрицательно соотносятся с вашим классом. В других случаях вам могут потребоваться только положительно коррелированные функции, поэтому вам нужно будет выбрать другой алгоритм или изменить существующий.
Надеюсь, это поможет,
Уильям Райли-Лэнд