Многоязычные текстовые элементы с произвольным текстом Классификация текста для улучшения рекомендательной системы - PullRequest
1 голос
/ 06 мая 2020

Чтобы улучшить систему рекомендаций для групп материалов покупателей, наша компания готова обучить модель, используя исторические данные о расходах клиентов. Модель должна быть обучена на исторических «Кратких текстовых описаниях» для прогнозирования соответствующего BMG. Набор данных содержит более 500 000 строк, а текстовые описания многоязычны (до 40 символов).

1.Вопрос: могу ли я использовать контролируемое обучение, если я считаю, что описания на нескольких языках? Если да, подходят ли классические c подходы, такие как полиномиальный наивный байес или SVM?

2. Вопрос: если я хочу улучшить первую модель, если она не работает хорошо, и использовать неконтролируемое многоязычное внедрение для построения классификатор. как я могу позже обучить этот классификатор числовым меткам?

если у вас есть другие идеи или подходы, пожалуйста, не стесняйтесь :). (Это вопрос простой классификации текста)

1 Ответ

1 голос
/ 07 мая 2020

Могу ли я использовать контролируемое обучение, если я считаю, что описания на нескольких языках?

Да, это не проблема, за исключением того, что ваши данные становятся более разреженными. Если на самом деле у вас всего 40 символов (разве это не 40 слов?) На элемент, у вас может не хватить данных. Кроме того, основной проблемой для контролируемого обучения будет наличие ярлыков для данных.

Если да, подходят ли классические c подходы, такие как полиномиальный наивный байес или SVM?

Они будут работать так же хорошо, как и всегда, хотя в наши дни создание векторное представление, вероятно, лучший выбор.

Если я хочу улучшить первую модель в случае, если она не работает, и использовать неконтролируемое многоязычное редактирование для создания классификатора. как я могу позже обучить этот классификатор числовым меткам? хочу сделать неконтролируемый рекомендатель.


Честно говоря, в наши дни я бы не стал начинать с наивных байесовских или классических моделей, я бы go сразу обратился к векторам слов в качестве первого теста для кластеризации. Использовать fasttext или word2ve c довольно просто. Основная проблема заключается в том, что если у вас действительно всего 40 символов на элемент, этого может оказаться недостаточно данных для полезной кластеризации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...