Я использую JSoup для создания правильного XML из нескольких веб-сайтов.Большую часть времени он работал феноменально хорошо, но в последнее время я столкнулся с некоторыми случаями плохого HTML, который JSoup, похоже, не может исправить.
<meta name="saploTags" content="Tag1,Tag2,Tag3," Tag4,Tag5,Tag6"/>
В результате
<meta name="saploTags" content="Tag1,Tag2,Tag3," tag4,tag5,tag6"="" />
Это вызывает проблемы позже, когда я пытаюсь проиндексировать полученный XML.У кого-нибудь есть предложения, что делать?Желательно, чтобы все, что находилось между самой левой и самой правой кавычками, было экранировано или удалено каким-либо образом, чтобы предотвратить потерю данных (например, content = "Tag1, Tag2, Tag3, Tag4, Tag5, Tag6". В противном случае было бы хорошо, если бы JSoupобрезать после его первой "конечной кавычки", игнорируя последние теги, такие как content = "Tag1, Tag2, Tag3".
(Подобные проблемы, которые я обнаружил, например <img src=".." alt="This text contains the quote "The quote" and here's some more text"/>
, вызывают аналогичные проблемы)
Можно ли обойти это с помощью jsoup или я зашел в тупик?
/ С уважением, Магнус