Похоже, вам нужно выяснить, есть ли способ автоматически очистить данные перед передачей анализатору. Как определенные символы недопустимы, недопустимы в объявленном наборе символов или неэкранированных метасимволах XML, таких как '<'? </p>
Для необъявленных сущностей я однажды решил эту проблему, настроив парсер SAX с обработчиком ошибок, который в основном игнорировал эти ошибки. Это может помочь вам тоже. См. ErrorHandler API.