Выбор части тега части речи (POS) для классификации текста - PullRequest
5 голосов
/ 31 марта 2011

У меня есть предложения POS-тегов с использованием Stanford POS-тегеров. Например:

Остров ДТ / NN был / очень VBD / красивый RB / JJ ./. Я / PRP люблю / VBP it / PRP ./.

(также доступен формат xml)

Может ли кто-нибудь объяснить, как выполнить выбор признаков из предложений POS-тегов и преобразовать их в вектор признаков для классификации текста с использованием метода машинного обучения.

1 Ответ

4 голосов
/ 04 августа 2011

Простой способ начать - это что-то вроде следующего (при условии, что порядок слов не важен для вашего алгоритма классификации).

Сначала вы бы вручную классифицировали несколько предложений. Это ваш тренировочный набор данных. Как правило, чем больше предложений вы классифицируете вручную для каждого класса, тем выше точность. Для такого контролируемого подхода, имейте в виду, что единственные выбранные функции будут из ваших классифицированных вручную предложений. Каждая из ваших функций - это уникальная комбинация слова / POS для всех ваших предложений обучения.

Наконец, вы должны выбрать алгоритм выбора объекта. Их много, но популярным является хи-квадрат. Некоторые другие - это информационный прирост, взаимная информация и т. Д. Используя хи-квадрат, вы измеряете зависимость переменной класса от каждой функции в отдельности. Вы должны выбрать некоторый порог, например, верхние 10% функций с наименьшим значением хи-квадрат, и оставить эти функции для последующего использования только в своем классификаторе.

Выбор алгоритма выбора функции важен и должен отражать алгоритм, который вы используете. Например, хи-квадрат хорош, когда вы хотите найти функции, которые как положительно, так и отрицательно соотносятся с вашим классом. В других случаях вам могут потребоваться только положительно коррелированные функции, поэтому вам нужно будет выбрать другой алгоритм или изменить существующий.

Надеюсь, это поможет, Уильям Райли-Лэнд

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...