Question

Я пытаюсь выполнить синтаксический анализ в Java и использую Cobra HTML Parser, чтобы получить HTML-код в DOM, а затем использую XPath, чтобы получить нужные мне узлы. Когда я опускаюсь до нужного уровня, я вызываю node.getTextContents (), но это дает мне строку типа

"\n\n\nValue\n-\nValue\n\n\n"

Есть ли встроенный способ избавиться от разрывов строки? Я хотел бы сделать RegEx, как

(?:\s*([^-]+)\s*-\s*([^-]+)\s*)

на внутреннем тексте и действительно предпочел бы не иметь дело с возможными различными символами пробела между текстом.

Пример ввода:

Value
-
Value

Спасибо

mpobrien · Answer 1 · 07 декабря 2009

Я не совсем уверен, что правильно понял вопрос, но самый простой способ удалить все пробелы:

String s = node.getTextContents (). ReplaceAll ("\\ s", "");

Если вы просто хотите избавиться от пробелов в начале / конце, используйте trim ().

Jim Ferrans · Answer 2 · 07 декабря 2009

Вы можете использовать String.replaceAll () .

String trimmed = original_string.replaceAll("\n", "");

Первый аргумент - это регулярное выражение: вы можете заменить все непрерывные блоки пробела в исходной строке, например, replaceAll("\\s+", "").

Внутренний текст Java (getTextContents ()) Проблема

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Внутренний текст Java (getTextContents ()) Проблема

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов