Я потратил много времени, пытаясь понять, как работает Google Wav eNet (также используется в их модели DeepVoice), но меня смущает сравнение с моделью WaveGlow от Nvidia. Я имею в виду эту реализацию Wav Tensorflow enet.
Nvidia утверждает, что она быстрее (также [здесь] ), чем Wav eNet и вот почему они его используют:
WaveGlow объединяет идеи Glow5 и WaveNet6, чтобы обеспечить быстрый, эффективный и высококачественный синтез звука без необходимости авторегрессии.
Но когда я распечатываю модель WaveGlow, количество параметров составляет ~ 270 миллионов. Для Wav enet это только ~ 3 миллиона , поэтому Waveglow в в 100 раз больше модель.
- Почему они утверждают, что она быстрее?
- Есть ли способ сравнить количество операций в обеих моделях?
- Как общее количество операций может быть меньше в Waveglow, когда модель в 100 раз больше?