Недавняя реализация Reformer в HuggingFace имеет и то, что они называют L SH Self Attention и Local Self Attention, но разница для меня не очень ясна после прочтения документации . Оба используют группирование, чтобы избежать квадратичных c требований к памяти ванильных преобразователей, но неясно, чем они отличаются. т.е. внутри заданного окна в предложении), в отличие от правильного хеширования L SH, которое выполняет L SH собственное внимание? Или это что-то еще?