нужны предложения по уточнению функции SVM - PullRequest
0 голосов
/ 30 августа 2010

Я обучил систему на SVM, которая задает вопрос, является ли веб-страница хорошей для ответа на этот вопрос.

Я выбрал функцию «Частота терминов на веб-странице», «Соответствует ли термин названию веб-страницы», «Количество изображений на веб-странице», «Длина веб-страницы», «Это страница википедии?», msgstr "позиция этой веб-страницы в списке, возвращаемом поисковой системой".

В настоящее время моя система будет поддерживать точность около 0,4 и отзывать на 1. Она имеет большую долю ложноположительных ошибок (многие плохие ссылки были классифицированы как хорошая ссылка моим классификатором).

Поскольку точность может быть немного улучшена, я хотел бы попросить некоторой помощи в этом вопросе об улучшении функций, которые я выбрал для обучения / тестирования, мог бы удалить некоторые из них или добавить туда больше.

Заранее спасибо.

1 Ответ

1 голос
/ 30 августа 2010

Хмм ...

  • Насколько велик ваш тренировочный комплекс? то есть сколько учебных документов вы используете?
  • Из чего состоит ваш тестовый набор?
  • Поскольку у вас слишком много FP, я бы попробовал потренироваться на более (и разнообразных) "плохих" веб-страницах
  • Можете ли вы дать более подробную информацию о различных функциях, таких как "tf на веб-странице" и т. Д .?
...