После выполнения квантования после обучения с использованием tenorflow lite на обученной модели керас, я понимаю, что веса в формате float32 будут преобразованы в формат int8.Но в документации ниже ссылка гласит:
При выводе веса преобразуются из 8-битной точности в число с плавающей запятой и вычисляются с использованием ядер с плавающей запятой.Это преобразование выполняется один раз и кэшируется для уменьшения задержки.
https://www.tensorflow.org/lite/performance/post_training_quantization
- Таким образом, не будет потери квантования после преобразования обратно в float32 во время вывода?Как это повлияет на точность прогнозирования модели?
- Могу ли я сделать вывод, используя веса int8 без преобразования обратно в формат float32 (используя код C или чистый Python)?
- Есть ли способ преобразовать веса в требуемый формат для вывода (скажем, float16 или int16) и сделать вывод без повторной инициализации?