Я прочитал статью, и авторы используют CNN по следующей схеме:
-----------------
Input image 30*30 => Feature maps => Feature maps => Feature maps => Feature maps
28 * 28 14*14 12*12 6*6
-----------------
Filtring 5*3*3 downsampling 2*2 Filtring 5*3*3 downsampling 2*2
С моим пониманием у нас есть два фильтра 5 * 3, а последние 3 соответствуют каналу RGB, поэтому 3, это правильно?