Я чищу HTML, используя cyberneko и xerces.
Тем не менее, некоторые сайты $ # @@! @@ по-прежнему используют ОБА
<script>...</script> and <script.../>
Так что же происходит: дано
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
neko анализирует всю вышеприведенную строку как скрипт, поэтому я получаю
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
А потом я теряю весь внутренний контент: (
Есть совет?