Обучение и тестирование данных в машинном обучении - PullRequest
0 голосов
/ 09 февраля 2019

Я хочу обучить данные, используя алгоритм K-средних, а затем протестировать их на другом подобном виде данных, удалив только один столбец.Я новичок в машинном обучении и поэтому взял код из https://www.datacamp.com/community/tutorials/k-means-clustering-python, чтобы применить его к одному из моих наборов данных, но где на этом веб-сайте происходит предсказание?Мы просто даем данные и проверяем точность.Как мы можем применить алгоритм к тестовым данным (которые, очевидно, будут другими), чтобы предсказать значение отсутствующего атрибута?

1 Ответ

0 голосов
/ 09 февраля 2019

Путаница, с которой вы сталкиваетесь, очень распространена, когда вы только начинаете машинное обучение.

Из Википедии :

Управляемое обучение - это задача машинного обученияизучения функции, которая отображает входные данные в выходные данные на основе примерных пар ввода-вывода.Он выводит функцию из помеченных данных обучения, состоящих из набора обучающих примеров.В контролируемом обучении каждый пример представляет собой пару, состоящую из входного объекта (обычно вектора) и желаемого выходного значения (также называемого контрольным сигналом).Контролируемый алгоритм обучения анализирует данные обучения и выдает предполагаемую функцию, которую можно использовать для отображения новых примеров.Оптимальный сценарий позволит алгоритму правильно определять метки классов для невидимых экземпляров.Для этого требуется, чтобы алгоритм обучения обобщал данные обучения в невидимые ситуации «разумным» образом (см. Индуктивное смещение).

Также из Википедия :

Необучаемое обучение - это раздел машинного обучения, который учится на тестовых данных, которые не были помечены, классифицированы или классифицированы.Вместо того, чтобы реагировать на обратную связь, неконтролируемое обучение выявляет общие черты в данных и реагирует на основании наличия или отсутствия таких общих черт в каждом новом фрагменте данных.

Алгоритм кластеризации K-средних представляет собой Необслуживаемый алгоритм обучения.В обучении без учителя у вас нет ярлыков, потому что вы не пытаетесь что-то предсказать.Вместо этого вы пытаетесь найти способ кластеризации ваших данных таким образом, чтобы точки данных с общими характеристиками группировались вместе.

Причина, по которой вы используете тестовые (и часто проверки ) наборы в контролируемом обучении, в первую очередь, заключается в оценке обобщающих свойств вашей модели, чтобы избежать чрезмерного фитинг .Однако при обучении без учителя вы не сможете оценить это, поскольку не знаете фактические кластеры данных.По этой причине нет смысла использовать тестовый набор.

...