как удалить "" строку из html, используя java? - PullRequest
0 голосов
/ 15 апреля 2020

Я хотел удалить " " строку из строки, которая находится в теге html. Я использую что-то вроде

nonhtml = nonhtml.replaceAll(" ", "");

Но в этом подходе я должен специально удалить другие, такие как &nbsp. Я не хочу использовать jsoup здесь, поскольку я знаю, что и все теги html, с которыми я имею дело. Любая подсказка по этому вопросу будет полезна.

1 Ответ

0 голосов
/ 16 апреля 2020

Следующий код довольно прост Java, и похоже (для меня), что решение, которое вы предоставили, прекрасно работает с моей стороны.

Возможно, помните:

  • String.replace(String text, String replaceText)
  • String.replaceAll(String regularExpression, String replaceText)

... немного отличаются. Последнее (упомянутое в вопрос), принимает "Регулярное выражение" - которое компилируется классом java.lang.String. Внимательно посмотрите на страницы документации java для class String, чтобы увидеть, где Регулярное выражение, а не простая строка используется в качестве параметра в методах "Replace-String" ... (Google JDK Java -Docs для java .lang.String)

Этот код, для меня, работает просто отлично! Однако, если первый параметр метода replaceAll был изменен, и в шаблоны были включены любые символы, требующие экранирования от Reg-Ex, метод потерпит неудачу. Для этого простого случая это было хорошо. См .: replaceAll (...) и replace (...)

String nonhtml = "\n\nSimple Test\n  Hello,
\n how are you?
\ n \ n "; System.out.println (не html); System.out.println (не html .replaceAll ("", "") .replaceAll ("", ""));

Произвел этот вывод:



Simple Test
  Hello,
how are you?

Простой тест

Здравствуйте,
how are you? 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...