Здравствуйте, коллега-разработчик,
Я новичок в Python и мне нужно написать веб-скребок для сбора информации из Google Ученого.
В итоге я написал код этой функции, чтобы получитьзначения с использованием Xpath:
thread = browser.find_elements(By.XPATH,(" %s" % exp))
xArray = []
for t in thread:
if not atr:
xThread = t.text
else:
xThread = t.get_attribute('href')
xArray.append(xThread)
return xArray
Я не знаю, хорошее это или плохое решение.Итак, я смиренно принимаю любые предложения, чтобы заставить его работать лучше.
В любом случае, моя настоящая проблема заключается в том, что я получаю имена всех авторов со страницы, которую я собираю, и что мне действительно нужно, так это имена, сгруппированные по результатам,Когда я прошу напечатать результаты, я хотел бы получить что-то вроде этого:
[[author1, author2,author 3],[author 4,author 5,author6]]
Что я получаю прямо сейчас:
[author1,author3,author4,author5,author6]
Структура выглядит следующим образом:
<div class="gs_a">
LR Hisch,
<a href="/citations?user=xuBuLKYAAAAJ&hl=es&oi=sra">AM Gobin</a>
,AR Lowery,
<a href="/citations?user=ziumTX0AAAAJ&hl=es&oi=sra">F Tam</a>
... -Annals of biomedical ...,2006 - Springer
</div>
И одна и та же структура повторяется по всей странице для разных документов и авторов.
И это вызов функции, который я объяснил ранее:
authors = (clothoSpins(".//*[@class='gs_a']//a"))
Который достает мне весь список авторов.