Чтобы улучшить систему рекомендаций для групп материалов покупателей, наша компания готова обучить модель, используя исторические данные о расходах клиентов. Модель должна быть обучена на исторических «Кратких текстовых описаниях» для прогнозирования соответствующего BMG. Набор данных содержит более 500 000 строк, а текстовые описания многоязычны (до 40 символов).
1.Вопрос: могу ли я использовать контролируемое обучение, если я считаю, что описания на нескольких языках? Если да, подходят ли классические c подходы, такие как полиномиальный наивный байес или SVM?
2. Вопрос: если я хочу улучшить первую модель, если она не работает хорошо, и использовать неконтролируемое многоязычное внедрение для построения классификатор. как я могу позже обучить этот классификатор числовым меткам?
если у вас есть другие идеи или подходы, пожалуйста, не стесняйтесь :). (Это вопрос простой классификации текста)