Получить представление о данных с помощью машинного обучения все еще нужен ручной анализ? - PullRequest
0 голосов
/ 04 октября 2018

Я новичок в машинном обучении и недавно получил работу по исследованиям и разработкам, связанным с большими данными.

Основная идея - получить представление о случайном сборе больших данных (я пока не знаю, чтобудут данные) и превратить его в информацию, а затем из информации превратить его в знания.Обычные вещи.

Я понял, что в конце концов анализ больших данных использует машинное обучение для автоматического выполнения некоторых из них.Поэтому сейчас мой фокус изменен на «Машинное обучение».

Первое, что я знаю, это то, что для получения информации о данных, которые мы не знаем, это, скорее всего, подходит для обучения без учителя.Итак, я сначала попробовал Кластеризацию с использованием K-средних.

Здесь у меня возникли вопросы:

  1. В K-средних мы должны определить K.Что странно для меня, почему мы должны определить результат количества кластеров, когда я ожидаю, что он сможет сделать свою собственную границу и решить, сколько кластеров он нашел?

  2. Даже есликластер решен, как мне узнать, что я понял?Пока я даже не знаю, как был решен кластер.Таким образом, в конце концов нам все еще нужен ручной анализ для такого рода вещей?

  3. Интересно, есть ли способ получить представление о случайных данных без дополнительного ручного анализа, или он долженбыть таким ?

1 Ответ

0 голосов
/ 04 октября 2018

Существует какой-то ручной анализ, связанный с любым типом постановки задачи.Из того, что вы написали, нет ясности в том, что именно является постановка проблемы.Когда вы даже не уверены в том, какими будут данные, сначала вы должны посмотреть на все особенности данных, некоторую базовую статистику данных, нулевые значения, любые дубликаты, надлежащие типы данных и т. Д., А затем сначала очиститьданные, и после этого только вы можете применять любые методы ML, чтобы получить некоторое представление.

Переход к K-Means, который является обучением без присмотра, есть несколько методов, чтобы решить, какой «k» выбрать.Изучите «метод локтя», чтобы выбрать k.В вашем случае K-means может помочь в некоторой правильной сегментации данных для первоначального анализа данных.

Я не могу больше комментировать, что делать, поскольку я не знаю данных.

...