Поскольку вы упомянули машинное обучение, я подумал, что расскажу вам, как это можно сделать с помощью Azure Machine Learning Studio (AML) с использованием бесплатной учетной записи.
Используя AML, вы получаете доступ к нескольким методам замены пропущенных значений, которые чрезвычайно быстры. В AML есть модуль Clean Missing Data , который предоставляет методы замены, такие как многовариантное вменение с использованием цепного уравнения, среднего, медианы и некоторых других. Главное, что вы можете визуализировать столбцы набора данных, щелкнув правой кнопкой мыши на наборе данных и посмотреть, какие столбцы имеют перекос. Затем вы можете выбрать столбец за столбцом, какой метод замены использовать. Если у вас сильно перекошенные столбцы, вы можете вместо этого использовать медиану. Это также открывает большие возможности для нормализации данных (масштабирование и уменьшение). Вы также получаете доступ к использованию Python и R. с вашим набором данных.
Я не знаю, существует ли метод для прямой обработки "*"
как пропущенных значений, я пытаюсь это выяснить, но если вы выполните небольшую обработку перед загрузкой, тогда все в порядке. Шаг перед загрузкой требует:
- Экспорт листа в формате CSV и сохранение его.
- Используйте Ctrl + F , чтобы открыть диалоговое окно поиска и замены, и введите
"~*"
для поиска и оставьте «Заменить» пустым

Затем войдите в AML и нажмите + New внизу экрана

Выберите New> DATASET > FROM LOCAL FILE
и выберите ваш файл

При выборе типа убедитесь, что выбрали CSV без заголовка, если у ваших данных нет строки заголовка, или с заголовком, если он есть:

Ваш набор данных начнет загрузку, как показано индикатором выполнения в нижней части экрана, а затем появится в коллекции SAVED DATASETS
.
Нажмите кнопку + New еще раз и выберите EXPERIMENT > BLANK EXPERIMENT

Перетащите сохраненный набор данных на холст справа:

В поле Поиск предметов эксперимента справа введите: Clean Missing Data
затем перетащите модуль, который появляется на холст

Соедините 2 поля, щелкнув точку внизу верхнего поля и перетащив в другое поле

Выберите нижнее поле, а затем введите следующие параметры справа (здесь вы можете выбрать, какой метод применять для пропущенных значений, например, заменить пропущенное на среднее или, возможно, медиану, если ваши данные столбца искажены.


Щелкните правой кнопкой мыши нижний модуль и выберите Run selected

Снова щелкните правой кнопкой мыши и выберите Cleaned dataset > Save as Dataset

Индикатор выполнения внизу сообщит вам о завершении
Введите в поле Поиск элементов эксперимента еще раз: convert to csv
и перетащите его на холст и подключите левую нижнюю часть второго модуля к верхней части вновь добавленного третьего:


Выберите нижний модуль и щелкните правой кнопкой мыши> Run selected
Дождитесь завершения индикатора выполнения.

Щелкните правой кнопкой мыши по нижнему модулю и нажмите Download
. Готово.
