Является ли эта проблема классификацией или регрессией? - PullRequest
0 голосов
/ 25 марта 2020

В лекции Эндрю Нг он спросил, является ли приведенная ниже проблема классификацией или проблемой регрессии. Ответ: Это проблема регрессии.

У вас большой запас идентичных предметов. Вы хотите предсказать, сколько из этих предметов будет продаваться в течение следующих 3 месяцев.

Похоже, я что-то упустил. Насколько я понимаю, это должна быть проблема классификации. Причина в том, что мы должны классифицировать каждый предмет по двум категориям, то есть он может быть продан или нет, что является дискретной ценностью, а не непрерывной.

Не уверен, где разрыв в моем понимании.

1 Ответ

1 голос
/ 25 марта 2020

Вы думаете, что у вас есть база данных предметов с соответствующими функциями и вы хотите предсказать, будет ли продан каждый предмет. В конце вы просто посчитаете количество предметов, которые можно продать. Если вы сформулируете проблему таким образом, тогда это будет действительно проблема классификации.

Однако, обратите внимание на следующее предложение в вашем вопросе:

У вас большой перечень идентичных предметов.

Идентичные предметы означает, что все предметы будут иметь одинаковые функции. Если вы придумаете бинарный классификатор, который сообщает, может ли продукт быть продан или нет, так как все значения характеристик одинаковы, ваш классификатор поместит все элементы в одну категорию.

Я думаю, что например, чтобы решить эту проблему, вы, вероятно, будете иметь доступ к временным рядам проданных товаров в месяц за последние 5 лет. Затем вам придется обработать эти данные и вставить их в будущее. Вы не будете классифицировать каждый элемент по отдельности, но фактически рассчитаете числовое значение, которое указывает количество проданных элементов за 1, 2 и 3 месяца в будущем.

Согласно Распознавание образов и машинное обучение (Christopher M. Bishop, 2006) :

Случаи, такие как пример распознавания di git, в котором цель состоит в том, чтобы назначить каждому входному вектору один из конечного числа дискретных Категории, которые называются классификация проблемы. Если требуемый вывод состоит из одной или нескольких непрерывных переменных, то задача называется регрессия .

Кроме того, важно понимать разницу между категориальные, порядковые и числовые переменные , как определено в статистике:

Категориальная переменная (иногда называемая номинальной переменной) - это переменная, которая имеет две или более категорий, но не имеет внутренних c заказ по категориям. Например, пол - это категориальная переменная, имеющая две категории (мужская и женская), и в ней нет встроенного порядка c для категорий.

(...)

Порядковая переменная похож на категориальную переменную. Разница между ними заключается в том, что существует четкое упорядочение переменных. Например, предположим, что у вас есть переменный статус economi c с тремя категориями (низкий, средний и высокий). Помимо возможности классифицировать людей по этим трем категориям, вы можете заказать категории как низкие, средние и высокие.

(...)

Числовая переменная аналогична порядковой переменной, за исключением того, что интервалы между значениями числовой переменной расположены на одинаковом расстоянии. Например, предположим, у вас есть переменная, такая как годовой доход, который измеряется в долларах, и у нас есть три человека, которые зарабатывают 10 000, 15 000 и 20 000 долларов.

Хотя ваш конечный результат будет целым ( дискретный набор чисел), обратите внимание, что это все еще числовое значение , а не категория . Вы можете манипулировать математически числовыми значениями (например, рассчитать среднее количество проданных предметов в следующем году, найти максимальное количество проданных предметов в следующие 3 месяца ...), но вы не можете сделать это с помощью отдельных категорий (например, что будет среднее значение для мобильного телефона и телефона?).

Проблемы с классификацией - это те, в которых выходные данные являются категориальными или порядковыми (дискретные категории, согласно епископу). Задачи регрессии выводят числовые значения (непрерывные переменные, согласно епископу).

Ваша система может быть ограничена выводом целых чисел вместо действительных чисел, но не изменит природу переменной от числовой. Следовательно, ваша проблема - это проблема регрессии.

...