Я пытаюсь извлечь определенные данные из ссылки, представленной ниже.Когда я запускаю код, он дает мне все ссылки href, как и ожидалось, но когда я пытаюсь провести дальнейшее тестирование той же строки, но с использованием синтаксиса содержимого, он возвращается как пустой.
Я проверил, прочитавДокументы, а также DevHints и везде, где я смотрю, синтаксис «Содержит» является рекомендуемым методом для захвата того, что я ищу, когда все, что я знаю, это то, что синтаксис будет включен, но не где и как.
Я пытаюсь построить скребок, чтобы помочь многим недавно уволенным людям найти новую работу, поэтому любая помощь очень ценится.
Код:
from lxml import html, etree
import requests
page = requests.get('https://ea.gr8people.com/index.gp?method=cappportal.showPortalSearch&sysLayoutID=123')
# print(page.content)
tree = html.fromstring(page.content)
print(tree)
# Select All Nodes
AllNodes = tree.xpath("//*")
# Select Only hyperlink nodes
AllHyperLinkNodes = tree.xpath("//*/a")
# Iterate through all Node Links
for node in AllHyperLinkNodes:
print(node.values())
print("======================================================================================================================")
# select using a condition 'contains'
# NodeThatContains = tree.xpath('//td[@class="search-results-column-left"]/text()')
NodeThatContains = tree.xpath('//*/a[contains(text(),"opportunityid")]')
for node in NodeThatContains:
print(node.values())
# Print the link that 'contains' the text
# print(NodeThatContains[0].values())