Классификатор с несколькими типами данных (Машинное обучение / Datascience) - PullRequest
0 голосов
/ 10 апреля 2020

Я новичок в машинном обучении / Datascience. Я подготовил набор данных, который включает частично категориальные столбцы, объекты даты и времени и числовые столбцы. Цель - мультиклассовый предмет (~ 6 классов). Я работаю с Jupyter Notebook и Python.

До сих пор я пробовал простой пример, такой как использование SVM Learner: https://www.geeksforgeeks.org/multiclass-classification-using-scikit-learn/

Как мне обращаться разные типы данных? Есть ли классификатор, который может хорошо обрабатывать все типы? Для объектов datetime моя идея состоит в том, чтобы изменить их на минуты с нуля (~ 1972 год?). Тогда у меня были бы только категориальные и числовые данные c.

Пожалуйста, помогите мне

1 Ответ

0 голосов
/ 12 апреля 2020

Категориальные столбцы - одна горячая кодировка или кодировка ответа. Объекты Datetime - Да, вы правы, вместо того, чтобы минуты переводили в год (зависит от того, сколько у вас данных). В любом случае, вы будете выполнять нормализацию, это не имеет значения, но для более старых данных, как вы упомянули 1972 год, это может помочь Вы визуализируете лучше в годах, если важна особенность. Кроме того, вы можете go в течение нескольких лет [1972 - 1982] и так далее, и посмотреть, что вам больше подходит. В большинстве случаев это зависит от проблемы c. Numeri c data - вам не нужно ничего делать. В конце концов, вы должны изменить свои функции на числа, чтобы могли работать любые алгоритмы машинного обучения. Надеюсь, что это отвечает на ваш вопрос.

...