Классификация с использованием алгоритма H2O.ai H2O-3 Automl в AWS SageMaker: категориальные столбцы - PullRequest
0 голосов
/ 20 октября 2019

Я пытаюсь обучить модель, используя алгоритм H2O-3 Automl H2O-3 на AWS SageMaker, используя консоль.

Цель моей модели - предсказать, будет ли арест произведен по году,тип преступления и местонахождение.

Мои данные имеют 8 столбцов:

  • primary_type: enum
  • description: enum
  • location_description: enum
  • arrest: enum (true / false), это целевой столбец
  • domestic: enum (true / false)
  • year: номер
  • latitude: номер
  • longitude: номер

Когда я использую консоль SageMaker в AWS и создаю новое учебное задание, используяВ автоматическом алгоритме H2O-3 я указываю столбцы primary_type, description, location_description и domestic как категориальные.

Однако в журналах учебной работы я всегда вижу следующие двалинии:

Converting specified columns to categorical values:
[]

Это наводит меня на мысль, что атрибут categorical_columns в гиперпараметре training не учитывается.

Я пробовал следующие гиперпараметры скаждый раз один и тот же вывод в журналах:

{'classification': 'true', 'categorical_columns':'primary_type,description,location_description,domestic', 'target': 'arrest'}
{'classification': 'true', 'categorical_columns':['primary_type','description','location_description','domestic'], 'target': 'arrest'}

Я думал, что список категориальных столбцов должен быть разделен запятой, которая затем будет разбита на список.

Я ожидал, что список имен категориальных столбцов будет выводиться в журналах вместо пустого списка, например так:

Converting specified columns to categorical values:
['primary_type','description','location_description','domestic']

Может кто-нибудь помочь мне понять, как заставить эти категориальные столбцы применять к обучениюмоей модели?

Кроме того - я думаю это код, который запускается, когда я тренирую свою модель, но мне еще предстоит подтвердить, что: https://github.com/h2oai/h2o3-sagemaker/blob/master/automl/automl_scripts/train#L93-L151

1 Ответ

0 голосов
/ 22 октября 2019

Судя по приведенному здесь коду: https://github.com/h2oai/h2o3-sagemaker/blob/master/automl/automl_scripts/train#L106

кажется, что параметр ищет строку через запятую. Например, "cat,dog,bird"

Я бы попробовал: "primary_type,description,location_description,domestic" в качестве входного параметра, а не ['primary_type', 'description'... etc]

...