Я работаю над задачей обработки естественного языка, в которой вводится текст, а метки являются числовыми (0, 1, 2, 3, 4, 5, 6, 7, 8, 9). В моей сети есть повторяющаяся часть, где я использую два последовательных двунаправленных слоя GRU. Я играл со слоями и тестировал различные комбинации слоев, когда обнаружил, что добавление одномерного сверточного слоя (conv1D) после повторяющейся части значительно повышает точность сети (примерно на 15% для текстов на английском языке sh). и 10% для немецких текстов). Я понятия не имею, почему эта комбинация улучшает результаты. Как это можно объяснить? Есть ли литература по этому поводу? ![enter image description here](https://i.stack.imgur.com/T11MX.png)