Ленивый метод состоит в том, чтобы сделать каждый сегмент затем объединенным с демультиплексором concat :
ffmpeg -loop 1 -i 1.png -i 1.mp3 -c:v libx264 -preset stillimage -vf format=yuv420p -c:a aac -shortest 1.mp4
ffmpeg -loop 1 -i 2.png -i 2.mp3 -c:v libx264 -preset stillimage -vf format=yuv420p -c:a aac -shortest 2.mp4
ffmpeg -loop 1 -i 2.png -i 2.mp3 -c:v libx264 -preset stillimage -vf format=yuv420p -c:a aac -shortest 2.mp4
ffmpeg -f concat -i input.txt -c copy -movflags +faststart output.mp4
Это предполагает, что файлы изображений имеют одинаковую ширину и высоту, а аудиофайлы имеютта же схема канала и частота дискретизации.
Более сложный метод - использовать concat filter , который позволяет вам делать все это в одной команде, но вам придется вводить длительность каждогосегмент изображения, соответствующий длительности звука.