Простой способ сделать это - написать ParseFilter наподобие
ParseData pd = parse.get(URL);
String text = pd.getText();
// remove chars
pd.setText(text);
Это будет вызвано для документов, проанализированных JSoup или Tika.
Посмотрите на фильтры разбора в репозитории для примеров.