Технический термин для того, что вы пытаетесь сделать, это « мультиплексирование » и обычно называется « muxing » ,
FFmpeg - это многоплатформенный инструмент командной строки, который делает это и является спорным отраслевым стандартом. Многие проекты заключают FFmpeg в библиотеки и графические интерфейсы.
FFmpeg также является открытым исходным кодом, так что вы можете скачать код и посмотреть, как они это сделали. Этот сиад, он очень большой и сложный.
Если вас интересует фактическая механика объединения отдельных аудио и видео файлов в файл назначения, вам потребуется много узнать о форматах контейнеров и Кодеки .