FFmpeg может только объединять входные данные, соответствующие точным размерам. Чтобы объединить входные данные разного размера, вы должны применить несколько фильтров для соответствия размерам. Вы можете применить масштаб, пэд или фильтр обрезки, чтобы изменить размер ввода и затем выполнить конкататуру.
Вот пример:
ffmpeg -y -i input.mp4 -i input2.mp4 -preset ultrafast -filter_complex
"[0:v]scale=1080:608[vout];[1:v]scale=1080:608[vout2];[vout][0:a]
[vout2][1:a]concat=n=2:v=1:a=1[v][a]" -map "[v]" -map "[a]" -c:v
libx264 -c:a aac -movflags +faststart output_test.mp4
Здесь применяется масштаб для изменения размера входных видео до точного размера (1080: 608) <=> (ширина: высота) с последующим объединением.
Чтобы увидеть детали:
Конкат: https://trac.ffmpeg.org/wiki/Concatenate
Масштаб: https://trac.ffmpeg.org/wiki/Scaling
Pad: https://ffmpeg.org/ffmpeg-filters.html#pad-1