Я немного запутался в том, что значит установить trainable = True
при загрузке универсального кодировщика предложений 3. У меня небольшой корпус (3000 различных предложений), учитывая предложение, я хочу найти 10 наиболее похожих предложений. Мой текущий метод:
1) Загрузите модуль embed = hub.Module("path", trainable =False)
2) Кодируйте все предложения: session.run(embed(sentences))
3) Найдите самые близкие предложения, используя косинусное сходство.
Это работает достойно, но я бы хотел, чтобы модель была настроена на мой собственный словарь, потому что есть определенные ключевые слова, которые важнее других. Таким образом, это не проблема классификации. При рассмотрении существующих примеров переобучения в модуле (https://www.tensorflow.org/hub/tutorials/text_classification_with_tf_hub) он предназначен для классификации.
Можно ли заставить Universal Sentence Encoder переучивать мои ключевые слова и выводить различные вложения (например, путем настройкиtrainable = True
)