У меня есть python код, который кодирует текст с использованием модели BERT. Затем код выполняет косинусное сравнение этого текста с набором текста из базы знаний. База знаний в dev составляет всего около 100 предложений. Шаги, перечисленные ниже:
- получают предложение в качестве параметра.
- кодируют предложение, используя Берт, и получают значение косинуса для предложения
- выполняют сравнение косинусов этого текста стихи предварительно закодированного набора предложений из базы знаний.
- сортировка списка вопросов из базы знаний в порядке возрастания косинусного расстояния.
работает на процессоре my Код занимает около 27 секунд для банка вопросов из 100 вопросов. Я запустил кодирование в многопоточном (с 3-мя потоками) виде и смог сократить время выполнения только до 10 секунд. Любая идея, как ускорить эту обработку.