Я работаю над магистерской диссертацией, в которой я делаю классификацию электронной почты (мошенничество). Я обучил классификатор (пробовал rf, xgb, cnb и svm) текстовым данным из электронной почты и оценил свои результаты. Другие данные, которые я могу использовать, - это метаданные из электронного письма, такие как время отправки, количество вложений, ...
. Важной частью моей диссертации является объединение текстового классификатора с мета-функциями. План, который является фиксированным, следующий:
1) разделить поезд / вал / тестовые данные
2) разрешить оптимальный (уже найденный, что является оптимальным) поезд классификатора на обучающих данных и прогнозирование на тестовых данных
3) Используйте прогнозы (вероятности) textclassfier AS FEATURE в наборе данных мета-функций
4) обучите классификатор на наборе данных мета-функций и посмотрите, насколько Разница в мета-функции по сравнению с текстовым классификатором.
Теперь мой вопрос:
Как мне это сделать?
Конечно, разделение поезда / теста должно быть одинаковым для обоих классификаторов, т.е. примеры обучения текстовым данным должны совпадать с примерами метаданных. Но проблема в том, что если я обучу textclassfier и позволю ему делать прогнозы на его тестовом наборе, у меня будут только прогнозы на его тестовом наборе, а не на его обучающем наборе.
Для обучения классификатора метаданных мне нужны предварительные условия для данных обучения.
Есть ли у кого-нибудь опыт с этим? Я знаю, что это не новая настройка, но я не могу найти ничего об этом в Google.