Предоставляет ли столбец только с нулями какую-либо информацию для анализа данных? Что, если в нем пропущены значения? - PullRequest
0 голосов
/ 06 августа 2020

У меня есть каверзный вопрос, который кто-то мне задал:

У меня есть несколько столбцов с данными, чтобы предсказать некоторые будущие продажи. Есть несколько таких столбцов, которые используют много памяти и содержат только нули. Возникает вопрос: можно ли просто удалить эти столбцы из анализа?

Вторая часть. Что делать, если в столбцах, содержащих только нули, также отсутствуют значения. Что ты делаешь?

1 Ответ

0 голосов
/ 07 августа 2020

Анализ наборов данных с большим количеством нулей действительно может быть пустой тратой вычислительных ресурсов (см. Вычисление разреженных матриц), тем более что они могут не вносить какой-либо значимой информации. Фактически, они могут даже добавить шум в ваш набор данных, скрывая любые связи, которые вы могли бы найти в противном случае.

Но есть случаи, когда нули могут иметь невероятное значение. Например, если вы пытались спрогнозировать будущие продажи продуктов на основе проданных единиц (данные подсчета), где каждый столбец представляет месяц продаж, вы можете оставить нули, поскольку они дают представление о продажах вашего продукта в течение этих конкретных c месяцев.

Удаление отсутствующих значений определенно сложно, и они часто могут быть признаком того, что вам может потребоваться пересмотреть процесс сбора данных для объяснения; есть ли причина, по которой отсутствуют данные, или пропущенное значение что-то означает (например, иногда нули могут быть закодированы как NAs)? В частности, c вопрос, на который вы пытаетесь ответить, и каково именно значение ваших данных / столбцов. Так что сложно ответить, не зная о самих данных.

...