У меня проблема с нейронной сетью, которая классифицирует исходные коды в форме AST. Он классифицирует их в зависимости от размера AST, так что в противовес этому я начал использовать регуляризаторы активности, чтобы сделать представление менее разреженным. Я пробовал сеть только с 1 слоем LSTM, но результат не очень убедительный, так как каждый процент меток почти одинаков (с 7 метками процент составляет ~ 14% каждая), и это не то, чего я хочу. Сейчас я тренирую сеть с двумя слоями LSTM и использую регуляризатор активности на втором, но она все еще тренируется. Теперь мой вопрос заключается в том, должен ли я использовать регуляризаторы в каждом слое или только в конечном, первом или любом другом слое.
Вот то, что я сейчас использую, с прокомментированными строками - это то, что я попробую дальше. 