Что за бессмысленные данные? - PullRequest
0 голосов
/ 07 мая 2020

Я читаю учебник по SVM .

Он написал там:

Машина опорных векторов, как правило, обрабатывает бессмысленные данные лучше, чем алгоритм K ближайших соседей

Что он подразумевает под «бессмысленными данными»?

Ответы [ 2 ]

2 голосов
/ 07 мая 2020

В этом контексте он используется для описания данных, на которых должно основываться любое классификационное решение , а не . В этом конкретном случае автор ссылается на столбец ID, который содержит идентификатор строки. Они считают, что эти данные не имеют отношения к задаче принятия решения, и поэтому называют их «бессмысленными» и даже «вводящими в заблуждение».

Это легче понять с дополнительным контекстом из статьи (выделено мной) :

Обратите внимание, что если мы закомментируем часть столбца drop id, точность вернется к 60 секундам. Машина опорных векторов, как правило, обрабатывает бессмысленные данные лучше, чем алгоритм K ближайших соседей, и определенно будет лучше обрабатывать выбросы, но в этом примере бессмысленные данные все еще очень вводит нас в заблуждение.

Это дополнительно подтверждается в более ранней части серии (выделено мной):

Результат должен быть около 95%, и это прямо из коробки без дополнительных настроек. Очень круто! Просто для галочки, давайте покажем, что происходит, когда мы действительно включаем действительно бессмысленные и вводящие в заблуждение данные , комментируя удаление столбца id:

Обсуждение

Верна ли эта оценка, зависит от фактического набора данных. Если собранных данных достаточно для получения удовлетворительных результатов, вероятно, стоит удалить такой столбец. С другой стороны, можно представить себе гипотетический пример, в котором столбец ID генерируется вместе с данными и содержит автоматически увеличивающееся целое число. Теперь он содержит информацию о последовательности записей. Если в наборе данных нет другой информации о последовательности (например, временных меток), тогда ID столбец может не иметь смысла.

2 голосов
/ 07 мая 2020

Предложение относится к предыдущему предложению:

Обратите внимание, что если мы закомментируем часть столбца drop id, точность вернется к 60-м.

и учебник KNearestNeighbors , в котором исследуется изменение производительности модели, если «бесполезные» данные (также известные как шум), такие как индексы точек данных, вводятся в модель в качестве входных данных.

[...] давайте покажем, что происходит, когда мы действительно включаем действительно бессмысленные и вводящие в заблуждение данные, комментируя удаление столбца id.

Вывод здесь таков: SVM обрабатывают бессмысленные функции, шум или «бессмысленные данные» на входе лучше, чем KNN.

...