Обрезать значения в каждом теге HTML - PullRequest
0 голосов
/ 07 мая 2020

Я хочу обрезать значения каждого тега HTML, используя Java.

Например: у меня есть следующий HTML в качестве ввода:

<html>
 <head></head>
 <body>

    Some Random Value


  <table border="1">
   <tbody>
    <tr>
     <th>A1</th>
     <th>A2</th>
    </tr>
    <tr>
     <td>B1</td>
     <td>B2</td>
    </tr>
   </tbody>
  </table>

  <p>  Paragraph   </p>
</body>
</html>

Результат должен быть:

<html><head></head><body>Some Random Value<table border="1"><tbody><tr><th>A1</th><th>A2</th></tr><tr><td>B1</td><td>B2</td></tr></tbody></table><p>Paragraph</p></body></html>

Я могу удалить пробелы между тегами (например, от </table> <p> до </table><p>), но как я могу обрезать каждое значение внутри тегов в Java. Я попытался получить все элементы с помощью JSoup и обрезать их, но он обрезает пробелы после Some Random Value, поскольку он извлекает тело как элемент.

...