Не могли бы вы уточнить свой набор данных немного подробнее?
Сначала, если мы предположим, что местоположение - это информация о твите, который был опубликован, то ваш метод (заполнение столбцов местоположения в строки, в которых эта информация отсутствует) становится неправильной.
Во-вторых, если мы предположим, что твит содержит информацию о местоположении правильно, вы можете заполнить пропущенные строки, используя информацию о местоположении твитов.
Если наше второе предположение верно, то оно было бы хорошим способом, потому что вы снабжаете свой набор данных правильной информацией. Другими словами, вы даете модели более подробную информацию, чтобы она могла более правильно прогнозировать процесс тестирования.
Относительно вашего вопроса о "Не будет ли это рассматриваться как избыточная функция (поскольку мы выводим значения этой функции с использованием какой-либо другой функции)" :
Вы можете попытаться удалить столбец местоположения из вашей модели и обучить вашу модель остальным 3 колонкам. Затем вы можете проверить успех новой модели, используя различные параметры (точность и т. Д. c.). Вы можете сравнить его с результатами модели, которую вы обучили, используя все 4 различных столбца. После этого, если нет существенных различий или результаты становятся серьезными, вы скажете, что столбец является избыточным. Также вы можете использовать Анализ основных компонентов (PCA) для обнаружения коррелированных столбцов.
Наконец, НИКОГДА не используйте данные тренировок в своем тестовом наборе данных. Это приведет к перетренированности, и при использовании вашей модели в реальных условиях ваша модель, скорее всего, потерпит неудачу.