Различия между вложениями BERT и LSA - PullRequest
0 голосов
/ 02 марта 2020

BERT как услуга (https://github.com/hanxiao/bert-as-service) позволяет извлечь вложения уровня предложения. Предполагая, что у меня есть предварительно обученная модель LSA, которая дает мне 300-мерный вектор слов, я пытаюсь понять, в каком сценарии модель LSA будет работать лучше, чем BERT, когда я пытаюсь сравнить два предложения для согласованности semanti c?

Я не могу придумать причину, по которой LSA был бы лучше для этого варианта использования - поскольку LSA - это просто сжатие матрицы больших сумм слов.

1 Ответ

0 голосов
/ 03 марта 2020

BERT требует квадратичной c памяти с длиной последовательности и обучается только парам в разделенных предложениях. Это может быть неудобно при обработке действительно длинных предложений.

Для LSA вам нужен только вектор мешка слова, который действительно имеет постоянный размер по длине документа. Для действительно длинных документов LSA может быть лучшим вариантом.

...