Чтение файла json из URL без гиперссылок - PullRequest
0 голосов
/ 09 октября 2018

Я использую следующую команду для извлечения информации, встроенной в на следующей веб-странице : (в конечном итоге я хочу извлечь информацию из кадра данных, отображенного на вышеупомянутой веб-странице).

import urllib.request, json 
with urllib.request.urlopen("https://www.mitomap.org/foswiki/bin/view/MITOMAP/MutationsRNA") as url:
    data = url.read().decode()

Однако мы видим, что во фрейме данных много гиперссылок.Возьмем, к примеру, столбец Locus.Если я распечатаю наблюдения под Locus, они будут отображаться, как показано ниже:

"<a href='/MITOMAP/GenomeLoci#MTTF'>MT-TF</a>"

Что указывает на то, что это гиперссылка.Тем не менее, я хотел бы, чтобы текст отображался (в данном примере MT-TF) в моем окончательном фрейме данных.

Есть ли какой-либо аргумент, который я могу передать urllib.request.urlopen() * извлечь только текст (а не гиперссылку) или любой другой способ, которым я могу это сделать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...