Как получить информацию о тегах <li>(BeautifulSoup Webscraping)? - PullRequest
1 голос
/ 05 марта 2020

Я собираю информацию с этой страницы:
https://lawyers.justia.com/lawyer/michael-paul-ehline-85006. Я пытаюсь собрать всю информацию в разделе сборов. Мне нужна следующая информация: Бесплатная консультация Да Принимаются кредитные карты Visa, Mastercard, American Express Условные сборы Только в случаях телесных повреждений. Тарифы, авансовые платежи и дополнительная информация Цены варьируются в зависимости от конкретного случая.

Это то, что я пробовал:

for thing in soup.findAll('ul', attrs={"class": "has-no-list-styles"}):
   ul=thing.find('<li>')
   print(ul)

, но вывод:

<li>Intellectual Property</li>
<li>Copyright Law</li>
<li><strong>English</strong></li>

Заранее спасибо.

ОБНОВЛЕНИЕ: Я нашел решение, но оно дает мне бесконечное число oop, какие-либо предложения?

for o in soup.findAll('div', attrs={"class": "block-wrapper"}):     
    for tag in soup.findAll('div', attrs={"class": "block-wrapper"}):
        if tag.string:
            tag.string.replace_with("")
        for de in o.findAll("li"):
            if de != []:
                de=remove_tags(str(de))
                print (de)

Ответы [ 2 ]

1 голос
/ 05 марта 2020

Попробуйте это.

from simplified_scrapy import SimplifiedDoc,req
html = req.get('https://lawyers.justia.com/lawyer/michael-paul-ehline-85006')
doc = SimplifiedDoc(html)
ul = doc.getElement('ul',attr='class',value='has-no-list-styles',start='class="jicon -large jicon-fee"') # Use class="jicon -large jicon-fee" to locate
print (ul.text)

Результат:

Free ConsultationYesCredit Cards AcceptedVisa, Mastercard, American ExpressContingent FeesIn personal injury cases only.Rates, Retainers and Additional InformationRates vary on a case by case basis.
0 голосов
/ 05 марта 2020

Попробуйте этот суп. Это было вдохновлено темным ответом. Все, что он делает, это ищет значок, который он детализировал, затем go к следующему брату его родителя, и оттуда беру тот текст братьев и сестер. помогает!

...