Анализ наборов данных с большим количеством нулей действительно может быть пустой тратой вычислительных ресурсов (см. Вычисление разреженных матриц), тем более что они могут не вносить какой-либо значимой информации. Фактически, они могут даже добавить шум в ваш набор данных, скрывая любые связи, которые вы могли бы найти в противном случае.
Но есть случаи, когда нули могут иметь невероятное значение. Например, если вы пытались спрогнозировать будущие продажи продуктов на основе проданных единиц (данные подсчета), где каждый столбец представляет месяц продаж, вы можете оставить нули, поскольку они дают представление о продажах вашего продукта в течение этих конкретных c месяцев.
Удаление отсутствующих значений определенно сложно, и они часто могут быть признаком того, что вам может потребоваться пересмотреть процесс сбора данных для объяснения; есть ли причина, по которой отсутствуют данные, или пропущенное значение что-то означает (например, иногда нули могут быть закодированы как NAs)? В частности, c вопрос, на который вы пытаетесь ответить, и каково именно значение ваших данных / столбцов. Так что сложно ответить, не зная о самих данных.