Я обучил систему на SVM, которая задает вопрос, является ли веб-страница хорошей для ответа на этот вопрос.
Я выбрал функцию «Частота терминов на веб-странице», «Соответствует ли термин названию веб-страницы», «Количество изображений на веб-странице», «Длина веб-страницы», «Это страница википедии?», msgstr "позиция этой веб-страницы в списке, возвращаемом поисковой системой".
В настоящее время моя система будет поддерживать точность около 0,4 и отзывать на 1. Она имеет большую долю ложноположительных ошибок (многие плохие ссылки были классифицированы как хорошая ссылка моим классификатором).
Поскольку точность может быть немного улучшена, я хотел бы попросить некоторой помощи в этом вопросе об улучшении функций, которые я выбрал для обучения / тестирования, мог бы удалить некоторые из них или добавить туда больше.
Заранее спасибо.