Из того, что я прочитал об этом, кажется, что он принимает только данные XML. Если вы сможете определить, где вы находитесь в видео во время его воспроизведения, вы можете заставить слушателя проверить это, а затем загрузить его в заполнитель.
Еще один прием, который я использовал в прошлом, - это загрузка изображений в многострочный текстовый символ с использованием простого HTML-тега изображения в качестве содержимого текста. Если бы вы могли динамически заполнять часть src = этого тега, он мог бы работать, но FLVPlaybackCaptioning, похоже, не поддерживает изображения напрямую.
Вы можете сделать свой xml состоящим из <img src="captionimage.gif">
и загрузить этот xml в текст и посмотреть, работает ли он.