Как я могу удалить неразрывные пробелы из JSoup 'Document'? - PullRequest
6 голосов
/ 12 августа 2011

Как я могу удалить это:

<td>&nbsp;</td>

или

<td width="7%">&nbsp;</td>

из моего JSoup 'Document'?Я перепробовал много методов, но эти символы без пробелов не совпадают с обычными выражениями JSoup или Селекторами.

1 Ответ

13 голосов
/ 12 августа 2011

Сущность HTML &nbsp; ( Unicode-символ NO-BREAK SPACE U + 00A0 ) в Java может быть представлена ​​символом \u00a0.Предполагая, что вы хотите удалить каждый элемент , который содержит этот символ как собственный текст (и, следовательно, не каждую строку , как вы сказали в комментарии), тогда должно работать следующее:

document.select(":containsOwn(\u00a0)").remove();

Если вы действительно хотите удалить всю строку , тогда вам лучше всего будет самому построчно сканировать HTML.

...