В наборе данных отсутствуют значения и процентная доля данных, которые остались бы неизменными - PullRequest
0 голосов
/ 09 апреля 2020

Не могу понять вопрос и ответить на него на сайте вопросов DS (см. Ссылку ниже):

Q3. Вам дан набор данных. В наборе данных отсутствуют значения, которые распространяются вдоль 1 стандартного отклонения от медианы. Какой процент данных останется неизменным? Почему?

Ответ: У этого вопроса достаточно подсказок, чтобы вы начали думать! Поскольку данные распределены по медиане, давайте предположим, что это нормальное распределение. Мы знаем, что при нормальном распределении ~ 68% данных находятся в 1 стандартном отклонении от среднего значения (или режима, медианы), что оставляет ~ 32% данных незатронутыми. Таким образом, ~ 32% данных не будут затронуты отсутствующими значениями.

https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

Как это возможно, что "пропущенные значения распространяются вдоль 1 стандартного отклонения от медиана "?

Как мы можем узнать медиану или другую статистику пропущенных значений? Если бы мы каким-то образом могли вернуть эти пропущенные значения, вся статистика нашего набора данных изменилась бы, не так ли? Что такое «незатронутые» и что такое «затронутые» данные?

...