В общем, сети прямой связи рассматривают функции как независимые;сверточные сети фокусируются на относительном местоположении и близости;RNN и LSTM имеют ограничения памяти и имеют тенденцию читать в одном направлении.
В отличие от них, внимание и преобразователь могут захватывать контекст о слове из отдаленных частей предложения, как раньше, так и позже, чем слово появляется, чтобы закодировать информацию, чтобы помочь нам понять слово и егороль в системе, называемая предложением.
Здесь есть хорошая модель для прямой связи с механизмом внимания:
https://arxiv.org/pdf/1512.08756.pdf
надеюсь быть полезным.