Используя lxml в python, я создал этот синтаксис xpath
htmlPage.xpath("/html/body//a/text()")
Он получает все теги <a>
в определенных областях HTML, которые я желаю. Теперь я столкнулся с тем, что теги <a>
могут выглядеть так:
<a>This is a sentence with some <italic>italic text</italic>-formatting I want to parse.</a>
xpath возвращает мне список, в котором на один элемент больше, чем я ожидаю. Я проверил это и понял, что он разделяет упомянутый выше тег <a>
на два элемента списка вместо одного. Вместо строки
"This is a sentence with some italic text-formatting I want to parse."
Я получаю две строки
"This is a sentence with some" # and
"-formatting I want to parse."
Есть ли способ исправить это?