Обычный способ обработки почтовых индексов или любого категориального столбца с высокой степенью кардинальности называется «целевым кодированием» или «ударным кодированием».В H2O вы можете применить целевую кодировку к любым категориальным столбцам.Начиная с H2O 3.20, это доступно только в R, но в следующем стабильном выпуске, 3.22, оно будет доступно во всех клиентах (билет JIRA здесь ).
Если вы используетеR, мой совет - попробовать как целевое кодирование, так и метод GLRM, упомянутый Лорен, и сравнить результаты.Если вы на Python или другом языке, попробуйте GLRM и попробуйте целевую кодировку попробовать, когда выйдет H2O 3.22.