В каком типе данных я должен хранить следующую строку для моделей машинного обучения - PullRequest
0 голосов
/ 15 октября 2019

У меня есть колонка в пандах. У которого есть dtype-> object. Для модели машинного обучения. В какой тип данных я должен преобразовать значения столбца в? Так что моя модель машинного обучения может распознать это. Одно из значений STRING в столбце

'000127127124188187186188184XXX194163164XXX14'

Я не могу преобразовать его в int64, поскольку оно имеет

'XXX'

Строка должна быть преобразована в требуемый тип данных

Ответы [ 2 ]

0 голосов
/ 17 октября 2019

Эти идентификаторы являются просто порядковыми переменными, как и идентификатор вашего сотрудника в любой организации. Они не полезны в прогнозировании модели. Пример. Допустим, у вас есть данные о сотрудниках, в которых есть идентификатор сотрудника, и вы хотите прогнозировать зарплату. Каждый идентификатор сотрудника имеет разную зарплату, поэтому переменная не отображает какую-либо тенденцию в вашей зарплате, поэтому будет бесполезной.

0 голосов
/ 15 октября 2019

Тип данных «объект» относится к строке, списку, значению и т. Д., Который не является числовым типом данных типа int, float, double и т. Д. Машины могут распознавать только числовые данные (int, float и т. Д.), Но не типы данных объекта. Для модели машинного обучения эти типы данных должны быть «закодированы» или в простых терминах преобразованы в числовой тип данных, потому что они используют математические уравнения, используя несколько доступных подходов, таких как кодирование меток, одно горячее кодирование и т. Д. Таким образом, для вашего набора данных на основев столбцах эти значения необходимо преобразовать в числовые типы данных, используя один из вышеуказанных подходов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...