Как мне применить набор данных, который был горячо закодирован с помощью scikit-learn, для создания деревьев решений? - PullRequest
0 голосов
/ 14 июля 2020

Прежде всего, я хотел бы извиниться, если это не проблема, но я все еще относительно новичок в этом.

У меня есть набор данных, который содержит около 2000+ строк и несколько столбцов. Последний столбец - это метка, которую я хочу предсказать.

Например, набор данных выглядит примерно так:

Habitat   Diet        Class     Family            Weight(kg)    Label
Land      Herbivore   Mammals   Bovidae           200.00        Cattle
Sea       Carnivore   Mammals   Balaenopteridae   2100.00       Baleen Whale
Sea       Herbivore   Mammals   Trichechidae      540.00        Menatee

Метка столбца (которая состоит из метки) была один в горячем коде с использованием Scikit-Learn и обратно в исходный фрейм данных. Это выглядит так.

Habitat   Diet        Class     Family            Weight(kg)    Label_0    Label_1  Label_2
Land      Herbivore   Mammals   Bovidae           200.00        1.0        0.0      0.0
Sea       Carnivore   Mammals   Balaenopteridae   2100.00       0.0        1.0      0.0
Sea       Herbivore   Mammals   Trichechidae      540.00        0.0        0.0      1.0

После этого столбец Label удаляется. Но после этого я буквально не знаю, как действовать дальше, потому что это мой первый практический подход по этому вопросу.

Я также разделил их на набор для обучения и тестирования (на основе целого rnet руководство, которому я следовал).

Но прямо сейчас, когда я пытаюсь сделать это ниже, это не работает.

from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier()
classifier.fit(X_train, y_train)

Выдает сообщение об ошибке ниже

ValueError: could not convert string to float: 'Value from one of the column'

Как подойти к этой проблеме и правильно перейти к классификации?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...