извлечь <label><span> тег на HTML с Python - PullRequest
0 голосов
/ 04 октября 2018

Я хотел бы извлечь веб-страницу как: https://www.glassdoor.com/Overview/Working-at-Apple-EI_IE1138.11,16.htm, поэтому я хотел бы вернуть результат в следующем формате.

Website       Headquarters  Size             Revenue                Type
www.apple.com Cupertino, CA 10000+ employees $10+ billion (USD) per year     Company - Public (AAPL)

Затем я использую следующий код с beatifulsoup, чтобы получить это.

all_href = com_soup.find_all('span', {'class': re.compile('value')})
all_href = list(set(all_href))

Возвращает тег с <span>.Кроме того, он не показывал тег под <label>

[<span class="value"> Computer Hardware &amp; Software</span>,
 <span class="value"> Company - Public (AAPL) </span>,
 <span class="value">10000+ employees</span>,
 <span class="value"> $10+ billion (USD) per year</span>,
 <span class="value-title" title="4.0"></span>,
 <span class="value">Cupertino, CA</span>,
 <span class="value"> 1976</span>,
 <span class="value-title" title="5.0"></span>,
 <span class="value website"><a class="link" href="http://www.apple.com" rel="nofollow noreferrer" target="_blank">www.apple.com</a></span>]

Ответы [ 2 ]

0 голосов
/ 04 октября 2018

Как я заметил в https://www.glassdoor.com/Overview/Working-at-Apple-EI_IE1138.11,16.htm

Вы должны найти <div class="infoEntity"> вместо <span class="value">, чтобы получить то, что вы хотите.

all_href = com_soup.find_all('div', {'class': re.compile('infoEntity')}).find_all(['span','label'])
all_href = list(set(all_href))

Он вернет вам все<span> и <label> вы хотите.

Что если вы хотите, чтобы <span> и <label> собрались вместе, чем изменить его на

all_href = [x.decode_contents(formatter="html") for x in com_soup.find_all('div', {'class': re.compile('infoEntity')})]
#or
all_href = [[x.find('span'), x.find('label')] for x in com_soup.find_all('div', {'class': re.compile('infoEntity')})]
0 голосов
/ 04 октября 2018

Ваше красивое притяжение слишком специфично.Вы перехватываете все теги «span», где class = value.

Когда вы смотрите на HTML, вы можете быстро найти этот раздел, выполнив поиск по тексту некоторых полей.Что вам нужно сделать, это получить все внутри любого из тегов div, где class = 'infoEntity', который содержит все 7 полей, которые вы хотите получить из этого раздела "Overview".

В этом естьтег метки для каждого поля, атрибуты которого соответствуют указанным выше меткам и находятся в этом разделе «Обзор».

Итак, начните с:

from bs4 import BeautifulSoup
data = """
<div class="eep-pill"><p class="tightVert h2 white"><strong>Enhanced</strong> Profile&nbsp;<span class="round ib"><i class="icon-star-white"></i></span></p></div></header><section class="center flex-grid padVertLg eepModal"><h2>Try Enhanced Profile Free for a Month</h2><p>Explore the many benefits of having a premium branded profile on Glassdoor, like increased influence and advanced analytics.</p><div class="margBot"><i class="feaIllustration"></i></div><a href='/employers/enhanced/landing_input.htm?src=info_mod' class='gd-btn gd-btn-link gradient gd-btn-1 gd-btn-med span-1-2'><span>Get Started</span><i class='hlpr'></i></a><p>Changes wont be saved until you sign up for an Enhanced Profile subscription.</p></section></div></article><article id='MainCol'><div id='EmpBasicInfo' class='module empBasicInfo ' data-emp-id='1138'><div class=''><header class='tbl fill '><h2 class='cell middle tightVert blockMob'> Apple Overview</h2></header><div class='info flexbox row col-hh'><div class='infoEntity'><label>Website</label><span class='value website'><a class="link" href="http://www.apple.com" target="_blank" rel="nofollow noreferrer">www.apple.com</a></span></div><div class='infoEntity'><label>Headquarters</label><span class='value'>Cupertino, CA</span></div><div class='infoEntity'><label>Size</label><span class='value'>10000+ employees</span></div><div class='infoEntity'><label>Founded</label><span class='value'> 1976</span></div><div class='infoEntity'><label>Type</label><span class='value'> Company - Public (AAPL) </span></div><div class='infoEntity'><label>Industry</label><span class='value'> Computer Hardware & Software</span></div><div class='infoEntity'><label>Revenue</label><span class='value'> $10+ billion (USD) per year</span></div></div></div><div class=''><div data-full="We&amp;rsquo;re a diverse collection of thinkers and doers, continually reimagining what&amp;rsquo;s possible to help us all do what we love in new ways. The people who work here have reinvented entire industries with the Mac, iPhone, iPad, and Apple Watch, as well as with services, including iTunes, the App Store, Apple Music, and Apple Pay. And the same passion for innovation that goes into our products also applies to our practices &amp;mdash; strengthening our commitment to leave the world better than we found it." class='margTop empDescription'> We&rsquo;re a diverse collection of thinkers and doers, continually reimagining what&rsquo;s possible to help us all do what we love in new ways. The people who work here have reinvented entire industries with the Mac, iPhone, iPad, and Apple Watch, as well as with ... <span class='link minor moreLink' id='ExpandDesc'>Read more</span></div><div class='hr'><hr/></div><h3 class='margTop'>Glassdoor Awards</h3>
"""
items = []
soup = BeautifulSoup(data, 'lxml')
get_info = iter(soup.find_all("div", {"class" : "infoEntity"}))
for item in get_info:
    label = item.find("label")
    value = item.find("span")
    items.append((label.string, value.string))

С этим вы получитесписок кортежей в элементах, который печатается как:

[('Website', 'www.apple.com'), ('Headquarters', 'Cupertino, CA'), ('Size', '10000+ employees'), ('Founded', ' 1976'), ('Type', ' Company - Public (AAPL) '), ('Industry', ' Computer Hardware & Software'), ('Revenue', ' $10+ billion (USD) per year')]

Оттуда вы можете распечатать этот список в любом формате, который вам нравится.

...