Я учусь пользоваться красивым супом.Мне удалось разобрать HTML, и теперь я хочу извлечь список ссылок со страницы.Проблема в том, что меня интересуют только некоторые ссылки, и я могу думать только о том, чтобы взять все ссылки после появления определенного слова.Могу ли я бросить часть супа, прежде чем начать добычу?Спасибо.
Вот что у меня есть:
# import libraries
import urllib2
from bs4 import BeautifulSoup
import pandas as pd
import os
import re
# specify the url
quote_page = 'https://econpapers.repec.org/RAS/pab7.htm'
# query the website and return the html to the variable page
page = urllib2.urlopen(quote_page)
# parse the html using beautiful soup and store in variable soup
soup = BeautifulSoup(page, 'html.parser')
print(soup)
#transform to pandas dataframe
pages1 = soup.find_all('li', )
print(pages1)
pages2 = pd.DataFrame({
"papers": pages1,
})
print(pages2)
И мне нужно отбросить верхнюю половину ссылок в page2
и единственный способ отличить те, от которых я хочуостальное - это слово, которое появляется в html, это строка "<h2 class="colored">Journal Articles</h2>
"
РЕДАКТИРОВАТЬ: я только что заметил, что я также могу отделить их по началу ссылки.Я хочу только те, которые начинаются с "/article/
"