Я пытаюсь написать некоторый код, который будет искать в XML-файле статей конкретный DOI, содержащийся в теге. Когда он найдет правильный DOI, я бы хотел получить доступ к тексту <title>
и <abstract>
для статьи, связанной с этим DOI.
Мой XML-файл имеет следующий формат:
<root>
<article>
<number>
0
</number>
<DOI>
10.1016/B978-0-12-381015-1.00004-6
</DOI>
<title>
The patagonian toothfish biology, ecology and fishery.
</title>
<abstract>
lots of abstract text
</abstract>
</article>
<article>
...All the article tags as shown above...
</article>
</root>
Мне бы хотелось, чтобы скрипт нашел статью с DOI 10.1016 / B978-0-12-381015-1.00004-6 (например), а затем я смог бы получить доступ к <title>
и <abstract>
теги внутри соответствующего тега <article>
.
До сих пор я пытался адаптировать код из этого вопроса :
from xml.dom import minidom
datasource = open('/Users/philgw/Dropbox/PW-Honours-Project/Code/processed.xml')
xmldoc = minidom.parse(datasource)
#looking for: 10.1016/B978-0-12-381015-1.00004-6
matchingNodes = [node for node in xmldoc.getElementsByTagName("DOI") if node.firstChild.nodeValue == '10.1016/B978-0-12-381015-1.00004-6']
for i in range(len(matchingNodes)):
DOI = str(matchingNodes[i])
print DOI
Но я не совсем уверен, что я делаю!
Спасибо за любую помощь.