Я использую красивый суп для извлечения данных из тегов ul и li.Я могу получить дату, но некоторые слова отсутствуют, и между строкой нет места.
<li>Developing <span class="bte bte-78432-940"> </span>pricing strategy that maximizes profits <span class="bte bte-78432-947"> </span>market share <span class="bte bte-78432-962"> </span>considers customer satisfaction</li>
<li>Supporting <span class="bte bte-78432-1041"> </span>and <span class="bte bte-78432-1045"> </span>launching</li>
HTML просмотр текста: - Разработка стратегии ценообразования, которая максимизирует прибыль и долю рынка, но учитывает удовлетворенность клиентов - Поддержказапуск продаж и услуг
Я получаю следующий текст: Разработка стратегии ценообразования, которая максимизирует долю рынка прибыли, учитывает удовлетворенность клиентов. Поддержка и запуск
Отсутствуют слова, например, a и and, продажа.и сервис.Кроме того, они пишутся одной строкой и непрерывно.
Как получить точный текст, как в представлении HTML, если нет bulttet, он должен по крайней мере содержать подчеркивание между каждым маркером.
Код:
soup = BeautifulSoup(html, 'html.parser')
ul_jobdetail = soup.find_all('ul',{'class':'job-detail-req'})
i=1
for ul_jdetail in ul_jobdetail:
if i==1:
duties = ul_jdetail.getText()
print(ul_jdetail.text)
else:
requirements=ul_jdetail.getText()
i=i+1