Как убрать <> из результата - PullRequest
0 голосов
/ 01 июля 2019

This is the html output from prettify Я пытаюсь получить список названий колледжей из онлайн-таблицы данных (результат поиска), а названия колледжей находятся между тегами и , т.е. Я не уверен, как удалить их из результата.

geo_table = soup.find('table',{'id':'ctl00_cphCollegeNavBody_ucResultsMain_tblResults'})

Colleges=geo_table.findAll('strong')
Colleges

Я думаю, что проблема в том, что я извлекаю не ту часть, потому что это означает жирную линию. Где мне найти название колледжа?

Это пример вывода:

href="?s=IL+MA+PA&p=14.0802+14.0801+14.3901&l=91+92+93+94&id=211440"

1 Ответ

0 голосов
/ 01 июля 2019

Чтобы получить значение href, необходимо найти тег find_all <a>, а затем повторить цикл и получить значение атрибута href, чтобы получить название колледжа, найти тег <strong> и получить текстовое значение.

geo_table =soup.find('table',{'id':'ctl00_cphCollegeNavBody_ucResultsMain_tblResults'})

Colleges=geo_table.findAll('a')
for college in Colleges:
    print('href :' + college['href'])
    print('college Name : ' + college.find('strong').text )
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...