Сравнение модели Nvidia Waveglow с Wav eNet, основанных на Deepvoice от Google для преобразования текста в речь - PullRequest
0 голосов
/ 19 июня 2020

Я потратил много времени, пытаясь понять, как работает Google Wav eNet (также используется в их модели DeepVoice), но меня смущает сравнение с моделью WaveGlow от Nvidia. Я имею в виду эту реализацию Wav Tensorflow enet.

Nvidia утверждает, что она быстрее (также [здесь] ), чем Wav eNet и вот почему они его используют:

WaveGlow объединяет идеи Glow5 и WaveNet6, чтобы обеспечить быстрый, эффективный и высококачественный синтез звука без необходимости авторегрессии.

Но когда я распечатываю модель WaveGlow, количество параметров составляет ~ 270 миллионов. Для Wav enet это только ~ 3 миллиона , поэтому Waveglow в в 100 раз больше модель.

  1. Почему они утверждают, что она быстрее?
  2. Есть ли способ сравнить количество операций в обеих моделях?
  3. Как общее количество операций может быть меньше в Waveglow, когда модель в 100 раз больше?
...