Не могу понять вопрос и ответить на него на сайте вопросов DS (см. Ссылку ниже):
Q3. Вам дан набор данных. В наборе данных отсутствуют значения, которые распространяются вдоль 1 стандартного отклонения от медианы. Какой процент данных останется неизменным? Почему?
Ответ: У этого вопроса достаточно подсказок, чтобы вы начали думать! Поскольку данные распределены по медиане, давайте предположим, что это нормальное распределение. Мы знаем, что при нормальном распределении ~ 68% данных находятся в 1 стандартном отклонении от среднего значения (или режима, медианы), что оставляет ~ 32% данных незатронутыми. Таким образом, ~ 32% данных не будут затронуты отсутствующими значениями.
https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/
Как это возможно, что "пропущенные значения распространяются вдоль 1 стандартного отклонения от медиана "?
Как мы можем узнать медиану или другую статистику пропущенных значений? Если бы мы каким-то образом могли вернуть эти пропущенные значения, вся статистика нашего набора данных изменилась бы, не так ли? Что такое «незатронутые» и что такое «затронутые» данные?