Question

Я тестирую идею векторизовать любую последовательность символов в вектор фиксированного размера в R ^ n, используя иерархическую комбинацию сетей эхо-состояний.Цель состоит в том, чтобы классифицировать эти последовательности как векторные (есть много алгоритмов машинного обучения для использования с реальными векторами фиксированного размера).

В частности, я тестирую этот алгоритм с английскими словами, пытаясь классифицировать ихкак существительные или прилагательные.Мой набор данных здесь: http://www.ashley -bovan.co.uk / words / partsofspeech.html

Используя SVM для классификации, я получаю 9% ошибок, кто-то можетуказать мне соответствующие документы или результаты для сравнения?

Спасибо!

karenu · Answer 1 · 27 февраля 2012

Как вы используете SVM для классификации?Какая формулировка - c-svm, nu-svm и т. Д.?SVM очень чувствителен к своим параметрам.Какое ядро вы используете?Какие параметры для ядра вы используете?Значение C / nu?

Правильные параметры будут варьироваться в зависимости от набора данных, и в целом часть данных используется для поиска наилучшего сочетания ядра и параметров.Неправильная комбинация может легко отбросить ваши результаты.Возможно, вы уже сделали это, это просто не ясно из того, что вы сказали, и может иметь большое значение.

GrayR · Answer 2 · 27 февраля 2012

Несколько лет назад я работал над алгоритмом, который использовал цепи Маркова для классификации строк как правильных русских слов или некоторых случайных строк (без использования какого-либо словаря). Вот ссылка на переведенную статью:

http://www.begellhouse.com/journals/2b6239406278e43e,685626ff507e6e58,5232ec7f32b362ef.html

Я получил результат около 91% (очень похожий на те, что вы получили за свою проблему, что я нахожу очень интересным). Во время моего исследования я натолкнулся на другое исследование, где авторы пытались классифицировать фразу (строку, состоящую как минимум из трех слов) как английскую, французскую или немецкую. У них был немного более низкий показатель успеха (~ 80%) Я не могу найти ссылку на их работу в Интернете, но она называлась примерно так - Мюррей "Вероятностное моделирование языка"

Векторизация слов для использования алгоритма машинного обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Векторизация слов для использования алгоритма машинного обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы