Работа с долготой и широтой в проектировании объектов - PullRequest
0 голосов
/ 03 мая 2020

У меня есть набор данных, который содержит информацию о домах по всему миру со следующими характеристиками: размер дома, количество спален, название города, название страны, сад или нет, ... (и много другой типичной информации о доме). И целевой переменной является цена дома.

Я знаю, что строки недопустимы в качестве входных данных в модели машинного обучения или нейронной сети, поэтому вместо выполнения одного горячего кодирования для названия города и названия страны (потому что я получу несколько сотен столбцов) Я решил заменить название города на его географические координаты (один столбец с долготой и один столбец с широтой). Город, в котором расположен дом, очевидно, поможет определить цену дома.

Значит, изменение названия города с его долготой и широтой сохраняет эту важную информацию? Можно ли изменить название города с его долготой и широтой?

1 Ответ

1 голос
/ 03 мая 2020

Декартовы координаты могут быть полезными для модели в некоторой степени. Однако для некоторых моделей, таких как деревья решений, для правильного моделирования зависимости целевой переменной от географических координат могут потребоваться слишком сложные модели. Для ясного и наглядного понимания этого вы можете проверить this .

Обычный подход в этих случаях - преобразовать координаты в полярные координаты и добавить их как новые особенности. Когда вы думаете об этом, вы добавляете новый способ выражения одной и той же вещи, просто в другом масштабе или системе. Таким образом, дереву потребуется меньше разбиений, чтобы можно было смоделировать эту пространственную зависимость выборок.

При этом я бы не стал полностью заменять существующие геолокационные данные координатами. Вероятно, было бы также интересно добавить некоторые статистические данные / статистические данные, основанные на данных о стране, а не их горячее кодирование или просто заменить их координатами.

...