Векторизация слов для использования алгоритма машинного обучения - PullRequest
1 голос
/ 27 февраля 2012

Я тестирую идею векторизовать любую последовательность символов в вектор фиксированного размера в R ^ n, используя иерархическую комбинацию сетей эхо-состояний.Цель состоит в том, чтобы классифицировать эти последовательности как векторные (есть много алгоритмов машинного обучения для использования с реальными векторами фиксированного размера).

В частности, я тестирую этот алгоритм с английскими словами, пытаясь классифицировать ихкак существительные или прилагательные.Мой набор данных здесь: http://www.ashley -bovan.co.uk / words / partsofspeech.html

Используя SVM для классификации, я получаю 9% ошибок, кто-то можетуказать мне соответствующие документы или результаты для сравнения?

Спасибо!

Ответы [ 2 ]

0 голосов
/ 27 февраля 2012

Как вы используете SVM для классификации?Какая формулировка - c-svm, nu-svm и т. Д.?SVM очень чувствителен к своим параметрам.Какое ядро ​​вы используете?Какие параметры для ядра вы используете?Значение C / nu?

Правильные параметры будут варьироваться в зависимости от набора данных, и в целом часть данных используется для поиска наилучшего сочетания ядра и параметров.Неправильная комбинация может легко отбросить ваши результаты.Возможно, вы уже сделали это, это просто не ясно из того, что вы сказали, и может иметь большое значение.

0 голосов
/ 27 февраля 2012

Несколько лет назад я работал над алгоритмом, который использовал цепи Маркова для классификации строк как правильных русских слов или некоторых случайных строк (без использования какого-либо словаря). Вот ссылка на переведенную статью:

http://www.begellhouse.com/journals/2b6239406278e43e,685626ff507e6e58,5232ec7f32b362ef.html

Я получил результат около 91% (очень похожий на те, что вы получили за свою проблему, что я нахожу очень интересным). Во время моего исследования я натолкнулся на другое исследование, где авторы пытались классифицировать фразу (строку, состоящую как минимум из трех слов) как английскую, французскую или немецкую. У них был немного более низкий показатель успеха (~ 80%) Я не могу найти ссылку на их работу в Интернете, но она называлась примерно так - Мюррей "Вероятностное моделирование языка"

...