Я пытаюсь удалить жирный тег (<b> Some text in bold here </b>)
из этого XML-документа (но хочу, чтобы текст, охватываемый тегами, оставался нетронутым). Жирные метки присутствуют вокруг следующих слов / текста: цели, дизайн, обстановка, участники, вмешательства, основные показатели результата, результаты, заключение и регистрации испытаний.
Это мой код Python:
import requests
import urllib
from urllib.request import urlopen
import xml.etree.ElementTree as etree
from time import sleep
import json
urlHead = 'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&retmode=xml&rettype=abstract&id='
pmid = "28420629"
completeUrl = urlHead + pmid
response = urllib.request.urlopen(completeUrl)
tree = etree.parse(response)
studyAbstractParts = tree.findall('.//AbstractText')
for studyAbstractPart in studyAbstractParts:
print(studyAbstractPart.text)
Проблема с этим кодом заключается в том, что он находит весь текст в теге «AbstractText», но останавливает (или игнорирует) текст жирным шрифтом и после него. В принципе, мне нужен весь текст между тегами "<AbstractText> </AbstractText>
", но жирное форматирование <b> </b>
- просто дерьмовое препятствие.