Как лучше всего использовать почтовые индексы в обучении модели Random Forest? - PullRequest
0 голосов
/ 11 сентября 2018

У меня есть набор данных со столбцом почтового индекса. Они имеют некоторое значение в выводе, и я хочу использовать его как функцию. Я использую модель случайного леса.

Мне нужны предложения о том, как лучше использовать колонку почтового индекса в качестве функции. (Например, я должен получить широту / долготу для этого почтового индекса вместо прямой подачи почтовых индексов и т. Д.)

Спасибо заранее !!

Ответы [ 2 ]

0 голосов
/ 14 сентября 2018

Я бы повторил, что Эрин Леделл говорит о целевом кодировании.

Вот некоторые другие варианты, и не все из них могут применяться:

  • Уменьшите гранулярность почтового индекса до первых 1,2,3 или 4 цифр.Таким образом, почтовый индекс 90210 становится 902 (902XX) и будет представлять округ Лос-Анджелес. 902 почтовых индексов
  • Можно ли сгруппировать почтовые индексы по MSA или CBSA ?
  • Существует ли функция о почтовых индексах, котораяможно добавить, например, город / город / село и т. д.
  • Можете ли вы указать некоторые демографические данные, численность населения или доход по почтовому индексу
  • Расстояние до / от ключевого местоположения (аэропорт, центр города и т. д.).)
  • Целевое кодирование, а затем группирование по очень высоким, высоким, средним и низким (или что-либо еще имеет смысл) пример это поможет предотвратить чрезмерное обучение ваших моделей.
0 голосов
/ 11 сентября 2018

Обычный способ обработки почтовых индексов или любого категориального столбца с высокой степенью кардинальности называется «целевым кодированием» или «ударным кодированием».В H2O вы можете применить целевую кодировку к любым категориальным столбцам.Начиная с H2O 3.20, это доступно только в R, но в следующем стабильном выпуске, 3.22, оно будет доступно во всех клиентах (билет JIRA здесь ).

Если вы используетеR, мой совет - попробовать как целевое кодирование, так и метод GLRM, упомянутый Лорен, и сравнить результаты.Если вы на Python или другом языке, попробуйте GLRM и попробуйте целевую кодировку попробовать, когда выйдет H2O 3.22.

...