У меня есть данные с двумя важными столбцами: Название продукта и Категория продукта.Я хотел классифицировать поисковый запрос по категории.Подход (в Python с использованием Sklearn & DaskML) для создания классификатора заключался в следующем:
- Столбец «Чистое имя продукта» для стоп-слов, чисел и т. Д.
- Создание 90% 10% обучающего тестаsplit
- Преобразование текста в вектор с помощью OneHotEncoder
- Создание классификатора (Наивного Байеса) на данных обучения
- Проверка классификатора
Я понял,OneHotEncoder (или любой кодировщик) преобразует текст в числа, создавая матрицу, учитывающую, где и сколько раз встречается слово.
Q1.Нужно ли конвертировать из Word в Векторы до разделения на поезд или тест?
Q2.Когда я буду искать новые слова (которых, возможно, уже нет в тексте), как я буду их классифицировать, потому что, если я закодирую поисковый термин, он не будет иметь отношения к кодировщику, используемому для обучающих данных.Кто-нибудь может мне помочь с таким подходом, чтобы я мог классифицировать поисковый термин по категории, если этот термин отсутствует в данных обучения?