проблема с парсингом html страницы, содержащей код php - PullRequest
0 голосов
/ 29 февраля 2020

У меня есть несколько страниц html, которые содержат некоторый код php, и я пытаюсь выполнить синтаксический анализ с помощью jsoup, но впоследствии содержимое php полностью испортилось. Есть ли способ указать, что «текст» между тегами php не должен изменяться?

например. У меня есть несколько локальных html файлов, которые содержат такие вещи, как:

<body>  
  <div> 
   <div class="container"> 
      html stuff here
   </div>
   <div>
     <?php
        do some stuff, like get values from Db
        foreach ($dbRef as $ref){ 
          echo "<div class='row'>";
             some more stuff here....
        }
     ?>
   </div>
 </div>
</body>

, если это анализируется final Document doc = Jsoup.parse(new String(Files.readAllBytes(path)),"", Parser.htmlParser());, тогда многое идет не так, как стартовый тег <?php рассматривается как комментарий, и когда я пишу документ обратно в файл, который он пишет: <!---?php
Кроме того, одинарные кавычки echo "<div class='row'>"; преобразуются в двойные кавычки echo "<div class="row">";, поэтому браузер выдает ошибки при просмотре моей страницы.

Есть ли какое-нибудь (простое) решение позволить парсеру теперь, когда все внутри не должно быть проанализировано, а просто оставлено как есть? Я мог бы дать окружающему diff другой класс или идентификатор, если бы это помогло?

Спасибо! JRE.

...