Удаление псевдоэлементов с веб-сайта с помощью XPath - PullRequest
0 голосов
/ 06 декабря 2018

Я хочу извлечь данные с веб-сайта, но кажется, что элементы, которые я хочу извлечь, не являются «доступными». Я также обнаружил, что они кажутся псевдоэлементами.Я могу видеть, что их теги помечены знаком # в моем веб-инспекторе.

Более того, при использовании XPath я не могу извлечь текст, к которому я хочу получить доступ.Это точка в CSS "каскадном дереве", когда я не могу извлечь содержимое тега, вы можете увидеть это ниже.Здесь я могу извлекать информацию вплоть до тега «любящий контент».Но когда я спрашиваю тег «fos_comment_thread», который является тегом чуть ниже, возвращаемое значение пустое.И именно этот тег является псевдоэлементом и следующим за ним.Однако текст, к которому я хочу получить доступ, еще глубже в этой части дерева CSS ...

Ввод

reponse.xpath=('//div[class@='row']/div[@class='span9 forum']/div[class@='content fond'].extract()

Ввод

['<div id="foc_comment_thread"<div>']

Ввод

reponse.xpath=('//div[class@='row']/div[@class='span9 forum']/div[class@='content fond']/div[id@='fos_comment_thread'].extract()

Вывод []

Я не понимаю, почему я не могу извлечь, я думаю, это связано с тем фактом, что остальные мои теги являются псевдоэлементами, но у меня нетне нашел решения для решения проблемы ...

1 Ответ

0 голосов
/ 07 декабря 2018

Первое, что вам нужно сделать, это не использовать инструмент веб-инспектора и посмотреть на необработанный HTML-код веб-сайта.

Веб-инспекторы учитывают преобразования, сделанные в Javascript, и могут показать вамобновите HTML после выполнения Javascript, что зачистка явно не видит.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...