Я хотел бы знать, как решить следующую проблему:
У меня есть 10 кластеров, каждый кластер содержит описание одежды (3/4 предложения) .
Цель состоит в том, чтобы найти лучшие кластеры, которые соответствуют входному запросу.
Я пытался решить эту проблему с помощью:
- BERT (MRPC, Cola Classifier (uni / multi-label)), но, кажется, он не очень хорошо работает для французского словаря.
- word2vec обучен в моем наборе данных, но я не могу разобраться с неизвестными словами(потому что мой словарь ограничен).
- Я также реализовал алгоритм сопоставления некоторых слов словаря во входном запросе и поиска этих слов в описаниях кластеров.
Это работает лучше для маленькихзапросов, поэтому я надеюсь найти способ улучшить его с помощью анализа зависимостей.
Если у вас есть идеи по решению моей проблемы, я был бы признателен.