Я столкнулся с той же проблемой с более быстрым RCNN, хотя вы не можете на самом деле использовать hard_example_miner с более быстрой моделью RCNN , вы можете добавить немного фоновые изображения , т.е.изображения без объектов (все остается прежним, за исключением того, что в xml нет тега объекта для этого конкретного изображения)
Еще одна вещь, которая действительно творила чудеса для меня, это использование imgaug библиотека , вы можете увеличивать изображения и ограничивающие рамки, используя тот же скрипт .Попробуйте увеличить данные обучения в 10 или 15 раз, и тогда я бы предложил вам снова тренироваться примерно до 150000-200000 шагов.
Эти два шага помогли мне эффективно сократить количество ложных срабатываний.