Как использовать MultinomialNB () с sklearn, когда фрейм данных не имеет целевого столбца? - PullRequest
0 голосов
/ 09 мая 2020

Хорошо, очень новичок в машинном обучении и sklearn, но я следую https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html, в частности, первой части, где MultinomialNB () используется для идентификации текста:

from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

Единственная разница между этим кодом и моим в том, что мои данные поступают из загруженного здесь csv https://www.kaggle.com/datasnaek/mbti-type фрейм данных называется mbtiData, который имеет 2 столбца: type и posts

Тип относится к типу Майерса Бриггса, и я пытаюсь предсказать тип сообщения на основе используемого языка / слов. В статье они ссылаются на столбец target:

Из соображений скорости и экономии места scikit-learn загружает целевой атрибут как массив целых чисел, который соответствует индексу имени категории в список target_names. Целочисленный идентификатор категории каждого образца хранится в целевом атрибуте

В основном, w 16 type, Id необходимо присвоить каждой записи type 1-16 target. Но у нас просто нет этого столбца в CSV - как мне это сделать?

Мне что-то не хватает для запуска MultinomialNB?

...