У меня много html-файлов, и я должен взять полный заголовок файлов.Теги заголовков расположены по-разному: class = "c6", class = "c7"
Я пробовал BeautifulSoup
for head_c6 in soup.find_all('span', attrs={'class': 'c6'}):
print(head_c6.get_text())
for head_c7 in soup.find_all('span', attrs={'class': 'c7'}):
print(head_c7.get_text())
, но результат:
Q3 2017 American ExpressВызов Co Co - Финал ДЛИНА:
Q2 2016 Вызов Akamai Technologies Inc - Финал Доход
Вот как выглядят разные файлы:
Файл 1
<div class="c4">
<p class="c5">
<span class="c6">
Q3 2017 American Express Co Earnings Call - Final
</span>
</p>
</div>
<div class="c4">
<p class="c5">
<span class="c7">
LENGTH:
</span>
<span class="c2">
11051 words
</span>
</p>
</div>
Файл 2
<div class="c4">
<p class="c5">
<span class="c6">
Q2 2018 Akamai Technologies Inc
</span>
<span class="c7">
Earnings
</span>
<span class="c6">
Call - Final
</span>
</p>
</div>
Файл 3
<div class="c4">
<p class="c5">
<span class="c6">
Q4 2018
</span>
<span class="c7">
Facebook
</span>
<span class="c6">
Inc
</span>
<span class="c7">
Earnings
</span>
<span class="c6">
Call - Final
</span>
</p>
Я хочу получить полный текст заголовка:
Выручка по программе American Express Co за 3 квартал 2017 года - финал
Доходы Akamai Technologies Inc за 2 квартал 2018 годаВызов - финал
Q4 2018 Facebook Inc Доход заработок Вызов - финал