Хорошо, очень новичок в машинном обучении и sklearn, но я следую https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html, в частности, первой части, где MultinomialNB () используется для идентификации текста:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)
Единственная разница между этим кодом и моим в том, что мои данные поступают из загруженного здесь csv https://www.kaggle.com/datasnaek/mbti-type фрейм данных называется mbtiData
, который имеет 2 столбца: type
и posts
Тип относится к типу Майерса Бриггса, и я пытаюсь предсказать тип сообщения на основе используемого языка / слов. В статье они ссылаются на столбец target
:
Из соображений скорости и экономии места scikit-learn загружает целевой атрибут как массив целых чисел, который соответствует индексу имени категории в список target_names. Целочисленный идентификатор категории каждого образца хранится в целевом атрибуте
В основном, w 16 type
, Id необходимо присвоить каждой записи type
1-16 target
. Но у нас просто нет этого столбца в CSV - как мне это сделать?
Мне что-то не хватает для запуска MultinomialNB?