Question

Он написал там:

Машина опорных векторов, как правило, обрабатывает бессмысленные данные лучше, чем алгоритм K ближайших соседей

Что он подразумевает под «бессмысленными данными»?

snwflk · Answer 1 · 07 мая 2020

В этом контексте он используется для описания данных, на которых должно основываться любое классификационное решение , а не . В этом конкретном случае автор ссылается на столбец ID, который содержит идентификатор строки. Они считают, что эти данные не имеют отношения к задаче принятия решения, и поэтому называют их «бессмысленными» и даже «вводящими в заблуждение».

Это легче понять с дополнительным контекстом из статьи (выделено мной) :

Обратите внимание, что если мы закомментируем часть столбца drop id, точность вернется к 60 секундам. Машина опорных векторов, как правило, обрабатывает бессмысленные данные лучше, чем алгоритм K ближайших соседей, и определенно будет лучше обрабатывать выбросы, но в этом примере бессмысленные данные все еще очень вводит нас в заблуждение.

Это дополнительно подтверждается в более ранней части серии (выделено мной):

Результат должен быть около 95%, и это прямо из коробки без дополнительных настроек. Очень круто! Просто для галочки, давайте покажем, что происходит, когда мы действительно включаем действительно бессмысленные и вводящие в заблуждение данные , комментируя удаление столбца id:

Обсуждение

Верна ли эта оценка, зависит от фактического набора данных. Если собранных данных достаточно для получения удовлетворительных результатов, вероятно, стоит удалить такой столбец. С другой стороны, можно представить себе гипотетический пример, в котором столбец ID генерируется вместе с данными и содержит автоматически увеличивающееся целое число. Теперь он содержит информацию о последовательности записей. Если в наборе данных нет другой информации о последовательности (например, временных меток), тогда ID столбец может не иметь смысла.

Tinu · Answer 2 · 07 мая 2020

Предложение относится к предыдущему предложению:

Обратите внимание, что если мы закомментируем часть столбца drop id, точность вернется к 60-м.

и учебник KNearestNeighbors , в котором исследуется изменение производительности модели, если «бесполезные» данные (также известные как шум), такие как индексы точек данных, вводятся в модель в качестве входных данных.

[...] давайте покажем, что происходит, когда мы действительно включаем действительно бессмысленные и вводящие в заблуждение данные, комментируя удаление столбца id.

Вывод здесь таков: SVM обрабатывают бессмысленные функции, шум или «бессмысленные данные» на входе лучше, чем KNN.

Что за бессмысленные данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Обсуждение

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Что за бессмысленные данные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Обсуждение

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы