В Chrome linux коде, таком как следующий
speak('<?xml version="1.0"?><speak>Intro <break time="200ms"/>the rest.</speak>');
, двигатель TTS считывает данные xml. В браузерах Android он понимает это и вводит перерыв.
Я не хочу анализировать браузер, но не вижу, какой тест я должен использовать, чтобы использовать преимущества SSML там, где он понимается, но служит что-то более простое, где это не