Обработка пропущенного значения в машинном обучении - PullRequest
1 голос
/ 07 марта 2020

Я анализировал набор данных, в котором у меня есть следующие имена столбцов: [ id, location, tweet, target_value ]. Я хочу обработать пропущенные значения для столбца location в некоторых строках. Поэтому я решил извлечь местоположение из твита столбца из этой строки (если твит содержит некоторое местоположение) и поместить это значение в местоположение столбец для этой строки.

Теперь у меня есть несколько вопросов относительно вышеуказанного подхода.

Это хороший способ сделать это таким образом? Можем ли мы заполнить некоторые пропущенные значения, используя сами данные обучения? Не будет ли это рассматриваться как избыточная функция (поскольку мы получаем значения этой функции с использованием какой-либо другой функции)

1 Ответ

1 голос
/ 07 марта 2020

Не могли бы вы уточнить свой набор данных немного подробнее?

Сначала, если мы предположим, что местоположение - это информация о твите, который был опубликован, то ваш метод (заполнение столбцов местоположения в строки, в которых эта информация отсутствует) становится неправильной.

Во-вторых, если мы предположим, что твит содержит информацию о местоположении правильно, вы можете заполнить пропущенные строки, используя информацию о местоположении твитов.

Если наше второе предположение верно, то оно было бы хорошим способом, потому что вы снабжаете свой набор данных правильной информацией. Другими словами, вы даете модели более подробную информацию, чтобы она могла более правильно прогнозировать процесс тестирования.

Относительно вашего вопроса о "Не будет ли это рассматриваться как избыточная функция (поскольку мы выводим значения этой функции с использованием какой-либо другой функции)" :

Вы можете попытаться удалить столбец местоположения из вашей модели и обучить вашу модель остальным 3 колонкам. Затем вы можете проверить успех новой модели, используя различные параметры (точность и т. Д. c.). Вы можете сравнить его с результатами модели, которую вы обучили, используя все 4 различных столбца. После этого, если нет существенных различий или результаты становятся серьезными, вы скажете, что столбец является избыточным. Также вы можете использовать Анализ основных компонентов (PCA) для обнаружения коррелированных столбцов.

Наконец, НИКОГДА не используйте данные тренировок в своем тестовом наборе данных. Это приведет к перетренированности, и при использовании вашей модели в реальных условиях ваша модель, скорее всего, потерпит неудачу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...