Ух ты, значит, у тебя есть некоторые тренировочные данные, и ты не знаешь, смотришь ли ты на особенности, представляющие слова в документе, или на генезис в ячейке, и тебе нужно настроить классификатор.Ну, поскольку у вас нет никакой семантической информации, вам придется делать это просто, просматривая статистические свойства наборов данных.
Во-первых, чтобы сформулировать проблему, это больше, чем просто линейнаяпротив нелинейных.Если вы действительно хотите классифицировать эти данные, то вам действительно нужно выбрать функцию ядра для классификатора, которая может быть линейной или нелинейной (гауссовская, полиномиальная, гиперболическая и т. Д.) Кроме того, каждая функция ядра может приниматьодин или несколько параметров, которые необходимо установить. Определение оптимальной функции ядра и набора параметров для данной проблемы классификации на самом деле не решаемая проблема, есть только полезная эвристика, и если вы гуглите «выбор функции ядра» или «выберите ядро»функция ", вы будете рассматриваться во многих исследовательских работах, предлагающих и тестирующих различные подходы. Хотя существует множество подходов, один из самых простых и полезных - это сделать градиентный спуск по параметрам - в основном вы пытаетесь использовать метод ядра инабор параметров, тренируйтесь на половине ваших точек данных и посмотрите, как вы это делаете. Затем вы попробуете другой набор параметров и посмотрите, как вы это делаете. Вы перемещаете параметры в направлении лучшего улучшения точности, пока не получите удовлетворение.результаты.
Если вам не нужно проходить через всю эту сложность, чтобы найти хорошую функцию ядра, и просто хотите получить ответ на линейный или нелинейный.тогда вопрос в основном сводится к двум вещам: нелинейные классификаторы будут иметь более высокий риск переоснащения (недогенерации), поскольку они имеют больше измерений свободы.Они могут страдать от классификатора, просто запоминая наборы хороших точек данных, а не придумывая хорошее обобщение.С другой стороны, линейный классификатор имеет меньше свободы для подгонки, и в случае данных, которые не являются линейно разделимыми, он не сможет найти хорошую функцию принятия решения и страдает от высокой частоты ошибок.
К сожалению, я не знаю лучшего математического решения для ответа на вопрос «являются ли эти данные линейно разделимыми», кроме как просто попробовать сам классификатор и посмотреть, как он работает.Для этого вам понадобится более умный ответ, чем мой.
Редактировать: В этом исследовании описывается алгоритм, который выглядит так, как будто он должен быть в состоянии определить, насколько близко данный набор данных становится линейно разделимым.
http://www2.ift.ulaval.ca/~mmarchand/publications/wcnn93aa.pdf