Прежде всего, я хотел бы извиниться, если это не проблема, но я все еще относительно новичок в этом.
У меня есть набор данных, который содержит около 2000+ строк и несколько столбцов. Последний столбец - это метка, которую я хочу предсказать.
Например, набор данных выглядит примерно так:
Habitat Diet Class Family Weight(kg) Label
Land Herbivore Mammals Bovidae 200.00 Cattle
Sea Carnivore Mammals Balaenopteridae 2100.00 Baleen Whale
Sea Herbivore Mammals Trichechidae 540.00 Menatee
Метка столбца (которая состоит из метки) была один в горячем коде с использованием Scikit-Learn и обратно в исходный фрейм данных. Это выглядит так.
Habitat Diet Class Family Weight(kg) Label_0 Label_1 Label_2
Land Herbivore Mammals Bovidae 200.00 1.0 0.0 0.0
Sea Carnivore Mammals Balaenopteridae 2100.00 0.0 1.0 0.0
Sea Herbivore Mammals Trichechidae 540.00 0.0 0.0 1.0
После этого столбец Label удаляется. Но после этого я буквально не знаю, как действовать дальше, потому что это мой первый практический подход по этому вопросу.
Я также разделил их на набор для обучения и тестирования (на основе целого rnet руководство, которому я следовал).
Но прямо сейчас, когда я пытаюсь сделать это ниже, это не работает.
from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier()
classifier.fit(X_train, y_train)
Выдает сообщение об ошибке ниже
ValueError: could not convert string to float: 'Value from one of the column'
Как подойти к этой проблеме и правильно перейти к классификации?