Я хочу оценить различные классификаторы при выполнении задачи прогнозирования канала с использованием алгоритмов встраивания узлов. Более конкретно, я хочу оценить, может ли встраивание узлов повысить точность различных классификаторов, предсказывающих новые связи между узлами.
Моя идея заключается в следующем:
- Я создаю набор данных, содержащий оба положительные и отрицательные образцы (реальные ссылки и несуществующие ссылки)
- Я разделяю набор данных в тестах разработки (DS) и тесте оценки (ES).
- Я использую DS для выполнения сетки Поиск перекрестной проверки (CV), чтобы найти лучшую модель
- Я обучаю лучшую модель на всей DS, а затем я оцениваю ее производительность на ES.
Проблема заключается в следующее: я не могу использовать алгоритмы встраивания узлов во весь набор данных, потому что в этом случае ES будет содержать информацию, относящуюся к исходной топологии графа. Поэтому мне нужно извлечь вложения узлов из обучающих и тестовых наборов, сгенерированных во время Grid Search CV, но как я могу это сделать, используя класс sklearn.model_selection.GridSearchCV
?