Question

Я пытаюсь удалить некоторую информацию с сайта, используя BeautifulSoup4. html выглядит следующим образом:

    <ul class=results__list-container">
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
       <li class="results__list-container-item">
           <div class="classname1"> attribute1 </div>
           <div class="classname2"> attribute2 </div>
       </li>
   </ul>

Чтобы получить все элементы списка, используя этот код:

source = requests.get('https://www.xxxxxxxxxxxx').text
soup = BeautifulSoup(source, 'html.parser')
offers_html = soup.find_all("li", {"class": 'results__list-container-item'}, limit=None)

Изучив html в моем браузере, я могу видеть, что Есть 50 случаев этого класса. Он хорошо работает на первых 10 экземплярах и печатает весь элемент списка с вложенным классом, и я могу получить все необходимые атрибуты, но после 10-го экземпляра все, что я получаю, это просто

<li class="results__list-container-item"></li>

Есть ли способ сохранить все элементы списка со всеми вложенными классами?

BeautifulSoup4 - findAll получает только 10 вхождений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

BeautifulSoup4 - findAll получает только 10 вхождений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов