Beautifulsoup Отсутствует ID - PullRequest
       21

Beautifulsoup Отсутствует ID

0 голосов
/ 05 июля 2019

Я пытаюсь очистить класс div id="ideas_body" от с этого сайта , но, похоже, он отсутствует. Я пробовал различных парсеров , о которых говорится в этом посте ( Отсутствуют детали в результатах Beautiful Soup ), но ни один из них не был успешным.

Вот мой код:

import requests
from bs4 import BeautifulSoup
import lxml

# Set Soup
url = 'https://www.com/ideas#'
headers = {'User-Agent': 'Mozilla/5.0'}
page = requests.get(url, headers=headers)

и неудачные парсеры, которые я пробовал:

  1. soup = BeautifulSoup(page.content, 'lxml-xml')
  2. soup = BeautifulSoup(page.content, 'html.parser')
  3. soup = BeautifulSoup(page.content, 'html.parser-xml')
  4. soup = BeautifulSoup(page.content, 'html5lib')

Так, как я могу разобрать этот идентификатор, чтобы очистить его?

1 Ответ

1 голос
/ 05 июля 2019

Как уже упоминалось ранее в комментариях, нет необходимости очищать. Вы можете просто вызвать API, чтобы получить необходимые данные.

Если вам нужно более 30 результатов, измените per_page в form_data.

import requests


form_data = {'type': 'idea',
             'show': 'all',
             'sort': 'new',
             'per_page': 30,
             'gotodate': '04/06/2019',
             'ls': 'all',
             'loc': 'all',
             'marketcap_l': 0,
             'shorten_name': 1
             }

response = requests.post('https://www.valueinvestorsclub.com/messages/loadmsgs', data=form_data)

ideas = response.json()['result']

Надеюсь, это поможет!

...