Можно ли обучить новую меньшую сеть на основе уже обученной сети без данных?т.е. новая сеть должна просто пытаться имитировать поведение 1-го.
Если это невозможно без данных, есть ли преимущества уже обученной сети?то есть, как я понимаю, по крайней мере, мы можем использовать его для псевдо-маркировки.
Обновление:
Самая актуальная статья, которую я нашел:
https://arxiv.org/pdf/1609.02943.pdf