Я совершенно новичок в этой области, и в настоящее время я застрял. Вот что я хочу и что я сделал:
У меня есть Dataframe, который является солитным в наборе данных Train и Test. Обучающие функции - это сообщения в Твиттере, ярлыкам назначены категории. Я настроил токенизатор (называемый clean_text
), который хранит только релевантные слова и разбирает сообщения до основной информации. Модель, включающая поиск по сетке, выглядит следующим образом:
def build_model():
pipeline = Pipeline([
('vectorizer', CountVectorizer(tokenizer=clean_text)),
('tfidf', TfidfTransformer()),
('clf', MultiOutputClassifier(
RandomForestClassifier()
))
])
# parameters to grid search
parameters = { 'vectorizer__max_features' : [50],#, 72, 144, 288, 576, 1152],
'clf__estimator__n_estimators' : [100]}#, 100] }
# initiating GridSearchCV method
model = GridSearchCV(pipeline, param_grid=parameters, cv = 5)
return model
Подгонка отлично работает, как и оценка. Не я не уверен, правильно ли настроена модель и являются ли функции наиболее часто используемыми токенами в сообщениях (в приведенном выше случае 50) или есть ошибка.
Теперь вопрос: Есть ли способ напечатать 50 функций и посмотреть, выглядят ли они правильно?
Лучший Феликс