В этом контексте он используется для описания данных, на которых должно основываться любое классификационное решение , а не . В этом конкретном случае автор ссылается на столбец ID
, который содержит идентификатор строки. Они считают, что эти данные не имеют отношения к задаче принятия решения, и поэтому называют их «бессмысленными» и даже «вводящими в заблуждение».
Это легче понять с дополнительным контекстом из статьи (выделено мной) :
Обратите внимание, что если мы закомментируем часть столбца drop id, точность вернется к 60 секундам. Машина опорных векторов, как правило, обрабатывает бессмысленные данные лучше, чем алгоритм K ближайших соседей, и определенно будет лучше обрабатывать выбросы, но в этом примере бессмысленные данные все еще очень вводит нас в заблуждение.
Это дополнительно подтверждается в более ранней части серии (выделено мной):
Результат должен быть около 95%, и это прямо из коробки без дополнительных настроек. Очень круто! Просто для галочки, давайте покажем, что происходит, когда мы действительно включаем действительно бессмысленные и вводящие в заблуждение данные , комментируя удаление столбца id:
Обсуждение
Верна ли эта оценка, зависит от фактического набора данных. Если собранных данных достаточно для получения удовлетворительных результатов, вероятно, стоит удалить такой столбец. С другой стороны, можно представить себе гипотетический пример, в котором столбец ID
генерируется вместе с данными и содержит автоматически увеличивающееся целое число. Теперь он содержит информацию о последовательности записей. Если в наборе данных нет другой информации о последовательности (например, временных меток), тогда ID
столбец может не иметь смысла.