Попытка разобрать веб-страницу на наличие последних высокоуровневых уязвимостей с помощью Python и BeautifulSoup - PullRequest
0 голосов
/ 08 июня 2018

Я пытался применить то, что другие предложили здесь:

Красивый суп: Доступ к элементам из

Но я не могу заставить его работать.Кажется, у человека из этого вопроса был «родительский» заголовок h2, но тот, который я пытаюсь проанализировать, не имеет.

Вот веб-страница, которую я собираю:

https://nvd.nist.gov/

(я думаю) Я нашел элемент, которым нужно манипулировать, это <ul id="latestVulns"> и следующие его li секции.

Я в основном хочу прочесть раздел, в котором написано «Последние 20 набранных идентификаторов уязвимостей и резюме», и, основываясь на данных об уязвимостях, отправить электронное письмо в соответствующий отдел моего рабочего места.

Вот мой код:

from bs4 import BeautifulSoup
import requests

source = requests.get('https://nvd.nist.gov/')
soup = BeautifulSoup(source.content, 'lxml')

section = soup.find('latestVulns')
print(section)

этот код возвращает None

Я в растерянности

1 Ответ

0 голосов
/ 08 июня 2018

Первый аргумент find ожидает имя элемента, и вы передаете id.

. Вы можете использовать это, чтобы найти тег правильно

section = soup.find('ul', {'id': 'latestVulns'})
...