Извлеките мета-описание веб-страницы, используя Python - PullRequest
0 голосов
/ 26 мая 2020

Как извлечь мета-описание любой веб-страницы? Я использовал приведенный ниже сценарий для получения метаинформации веб-страницы.

import requests
from bs4 import BeautifulSoup

url = 'https://www.dataquest.io/'
response = requests.get(url)
soup = BeautifulSoup(response.text)

metas = soup.find_all('meta')

Результатом сценария является:

 [<meta charset="utf-8"/>,
 <meta content="width=device-width, initial-scale=1" name="viewport"/>,
 <meta content="Learn Python, R, and SQL skills. Follow career paths to become a job-qualified data scientist, analyst, or engineer with interactive data science courses!" name="description"/>,
 <meta content="index, follow" name="robots"/>,
 <meta content="index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1" name="googlebot"/>,
 <meta content="index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1" name="bingbot"/>,
 <meta content="en_US" property="og:locale"/>]

Теперь я хочу извлечь содержимое мета свойство, где name="description" т.е. вторая строка в данном случае.

Пожалуйста, советую!

1 Ответ

0 голосов
/ 26 мая 2020

Для этого можно использовать синтаксис фильтрации массива python:

[m.get('content') for m in metas if m.get('name') == 'description']

Это возвращает массив.

...