Question

Недавняя реализация Reformer в HuggingFace имеет и то, что они называют L SH Self Attention и Local Self Attention, но разница для меня не очень ясна после прочтения документации . Оба используют группирование, чтобы избежать квадратичных c требований к памяти ванильных преобразователей, но неясно, чем они отличаются. т.е. внутри заданного окна в предложении), в отличие от правильного хеширования L SH, которое выполняет L SH собственное внимание? Или это что-то еще?

erickrf · Answer 1 · 22 мая 2020

Внимательно изучив исходный код, я обнаружил, что на самом деле локальное внимание уделяется последовательно ближайшим токенам.

Reformer local и L SH внимание в реализации HuggingFace

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Reformer local и L SH внимание в реализации HuggingFace

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы