классификация набора данных с различными типами - PullRequest
0 голосов
/ 27 июня 2018

Я хотел бы сделать простую классификацию набора данных. Каждые данные имеют различные атрибуты, такие как дата и время (например: 2018-01-01 13:03:11), идентификатор человека, некоторые двоичные атрибуты (которые могут принимать значения 0 или 1), некоторые атрибуты с плавающей запятой, некоторые атрибуты могут есть NaN и т. д.

И для каждой информации есть метка, которую мы хотим предсказать.

Я хочу использовать python и простые методы регрессии. Однако, поскольку типы атрибутов различны, я думаю, что я должен как-то изменить их, чтобы они были в одном формате, правильно? Если да, не могли бы вы мне помочь, как мне это сделать?

Например, мой набор данных может выглядеть так:

> data_number     date              id        yes/no    duration   
> label 0          2018-01-01 15:29:29    1321      0         43.943    
> 0 1          2018-03-01 15:18:09    1334      1         98.007        
> 1 2          2017-01-01 16:29:29    1393      0         431.10        
> 1

метки либо 0, либо 1.

Буду признателен, если вы порекомендуете мне несколько веб-страниц, на которых они объяснят подобные проблемы.

Спасибо

1 Ответ

0 голосов
/ 27 июня 2018

Определение типа проблемы:

В машинном обучении важно сначала понять тип проблемы. Если это непрерывный вывод - [1,23,4,5,6, 5.5, 6.7, ..], используйте линейную регрессию. Если это категориальный вывод - [0,1,0,0,1 ...] или ['High', 'low', 'Medium', ...] и т. Д., Перейдите к логистической регрессии. Поскольку целевые метки равны 0 или 1, эту проблему необходимо решить с помощью логистической регрессии или других алгоритмов классификации (SVM, дерево решений, случайный лес).

Очистка / исследование данных:

Вы должны преобразовать свои данные в числовой формат или стандартизированный формат для регрессии. https://realpython.com/python-data-cleaning-numpy-pandas/

Код стартера:

Кажется, вы ищете стартовый код для вашей проблемы. Вы можете найти это в ядрах Kaggle. Вот несколько ссылок:

...