Reformer local и L SH внимание в реализации HuggingFace - PullRequest
1 голос
/ 07 мая 2020

Недавняя реализация Reformer в HuggingFace имеет и то, что они называют L SH Self Attention и Local Self Attention, но разница для меня не очень ясна после прочтения документации . Оба используют группирование, чтобы избежать квадратичных c требований к памяти ванильных преобразователей, но неясно, чем они отличаются. т.е. внутри заданного окна в предложении), в отличие от правильного хеширования L SH, которое выполняет L SH собственное внимание? Или это что-то еще?

1 Ответ

0 голосов
/ 22 мая 2020

Внимательно изучив исходный код, я обнаружил, что на самом деле локальное внимание уделяется последовательно ближайшим токенам.

...