Если камера зафиксирована и в сцене не слишком много движения, я бы предложил метод, основанный на вычитании фона.
Шаг 1: Вычислить фон для каждого кадра видео. Для этого существуют сложные алгоритмы, но очень простым и эффективным будет вычисление медианного значения каждого пикселя в изображении через 3-секундное временное окно. Дольше, если рассматриваемый объект движется медленно. Кстати, если вы просто выполните этот вид фильтрации, он удалит большинство движущихся объектов из видео, если камера зафиксирована, поэтому мой предыдущий вопрос обо всех объектах и одном объекте.
Шаг 2: Пометьте области, которые вы хотите удалить в каждом кадре, с помощью инструмента-кисти и замените их фоновыми пикселями. Не утруждайте себя мелкой кистью или инструментом лассо, поскольку любые необъектные пиксели, которые вы пометите, будут просто заменены их отфильтрованной версией. Возможно, вы могли бы использовать одни и те же метки кисти для нескольких кадров, поскольку граница не так важна. Если объект - это единственное, что движется в сцене, вы можете просто отметить весь кадр и заменить его на фон.
В любом случае, чтобы ответить на более общий вопрос, тема, которую вы хотите исследовать, называется inpainting для изображений и видео. Существует довольно много литературы по этому вопросу, которую я описал, это просто супер простой метод, который можно реализовать за час или около того с помощью opencv.