Распространение данных - это хорошо или плохо в машинном обучении, и почему - PullRequest
0 голосов
/ 09 мая 2020

Я новичок в машинном обучении, и я знаю, что стандартное отклонение - это число, которое описывает, как распространяются данные, но подходит ли большой разброс для модели и как это исправить?

1 Ответ

0 голосов
/ 09 мая 2020

Как Википедия говорит:

стандартное отклонение - это мера степени вариации или разброса набора значений. Низкое стандартное отклонение указывает на то, что значения имеют тенденцию быть близкими к среднему (также называемому ожидаемым значением) набора, в то время как высокое стандартное отклонение указывает, что значения разбросаны в более широком диапазоне.

Это означает, что обычно стандартное отклонение - это просто статистика c, которая содержит некоторую информацию о распределении ваших данных. Поскольку в машинном обучении существует множество ветвей и областей, было бы не очень правильно говорить, что мы хотим, чтобы данные были распределены или сконцентрированы.

В некоторых приложениях, таких как классификация, если данные каждого класса больше сосредоточены вокруг означает (при условии, что классы имеют разные средства), вы можете классифицировать их с более высокой точностью.

Вы можете просто снизить стандартное отклонение всех ваших данных, разделив его на какое-то число, но это также уменьшит расстояние между ваши центры обучения, что означает, что это не принесет вам никакой пользы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...