Я использую следующую команду для извлечения информации, встроенной в на следующей веб-странице : (в конечном итоге я хочу извлечь информацию из кадра данных, отображенного на вышеупомянутой веб-странице).
import urllib.request, json
with urllib.request.urlopen("https://www.mitomap.org/foswiki/bin/view/MITOMAP/MutationsRNA") as url:
data = url.read().decode()
Однако мы видим, что во фрейме данных много гиперссылок.Возьмем, к примеру, столбец Locus
.Если я распечатаю наблюдения под Locus
, они будут отображаться, как показано ниже:
"<a href='/MITOMAP/GenomeLoci#MTTF'>MT-TF</a>"
Что указывает на то, что это гиперссылка.Тем не менее, я хотел бы, чтобы текст отображался (в данном примере MT-TF
) в моем окончательном фрейме данных.
Есть ли какой-либо аргумент, который я могу передать urllib.request.urlopen()
* извлечь только текст (а не гиперссылку) или любой другой способ, которым я могу это сделать?