Итак, вы хотите удалить все headers
и получить только string
названия компании?В принципе, вы можете использовать soup.findAll
, чтобы найти список компаний в следующем формате:
<strong class="company"><span>중소기업진흥공단</span></strong>
Затем вы используете функцию .find
для извлечения информации из <span>
tag:
<span>중소기업진흥공단</span>
После этого вы используете функцию .contents
для получения строки из тега <span>
:
'중소기업진흥공단'
Итак, вы пишете цикл, который делает то же самое для каждой страницы, и создаете список с именем company_list
, чтобы сохранить результаты каждой страницы и добавить их вместе.
Воткод:
from bs4 import BeautifulSoup
import requests
maximum = 12
company_list = [] # List for result storing
for page_number in range(1, maximum+1):
URL = 'http://www.saramin.co.kr/zf_user/jobs/company-labs/list/page/{}'.format(page_number)
response = requests.get(URL)
print(page_number)
whole_source = response.text
soup = BeautifulSoup(whole_source, 'html.parser')
for entry in soup.findAll('strong', attrs={'class': 'company'}): # Finding all company names in the page
company_list.append(entry.find('span').contents[0]) # Extracting name from the result
* company_list
даст вам все названия компаний, которые вы хотите