Почему я получаю неправильные результаты от этого простого веб-скребка? - PullRequest
0 голосов
/ 29 апреля 2020

Я новичок в веб-очистке с python, и я хотел создать простой и личный проект для меня, чтобы практиковаться и подвергаться воздействию. Во время поездки на https://cparkerportfol.weebly.com/my-brand.html я пытаюсь извлечь все слова тега "h2", которые появляются в разделе ниже "Персональная марка". В файле json результат выводится как [{"word": "Personal Brand"}, {"word": "Strengths Finder 2.0"}]. Он должен быть выведен в [{word: "Arranger"}, {word: "Harmony"}], et c.

Это мой код:

from bs4 import BeautifulSoup
import requests
import json

url = "https://cparkerportfol.weebly.com/my-brand.html"
response = requests.get(url, timeout=5)
content = BeautifulSoup(response.content, "html.parser")

wordArr = []

for w in content.find_all('div', attrs={"class": "wsite-section-elements"}):
    wordObject = {
        "word": w.find('h2', attrs={"class": "wsite-content-title"}).text
    }
    wordArr.append(wordObject)

with open('scraperinfo.json', 'w') as outfile:
    json.dump(wordArr, outfile)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...