Невозможно разделить тег href в python - PullRequest
0 голосов
/ 10 ноября 2018

Я получаю следующий вывод в моем прекрасном супе. [Поиск по 301,944 наборам данных \ n]

Мне нужно извлечь только число 301,944 в этом. Пожалуйста, объясните мне, как это можно сделать. Мой код до сих пор

import requests
import re
from bs4 import BeautifulSoup
source = requests.get('https://www.data.gov/').text
soup = BeautifulSoup (source , 'lxml')
#print soup.prettify()
images = soup.find_all('small')
print images
con = images.find_all('a') // I am unable to get anchor tag here. It says anchor tag not present
print con
#for con in images.find_all('a',href=True):
    #print con
#content = images.split('metrics')
#print content[1]
#images = soup.find_all('a', {'href':re.compile('\d+')})
#print images

1 Ответ

0 голосов
/ 11 ноября 2018

На сайте есть только один тег <small>.

Ваша images переменная ссылается на нее. Но вы используете его неправильно для извлечения тега привязки.

Если вы хотите получить текст из тега a, вы можете получить его с помощью:

soup.find ( 'маленький'). A.text

где find метод возвращает первый небольшой элемент, с которым он сталкивается на веб-сайте. Если вы используете find_all, вы получите список всех элементов small (но здесь есть только один маленький тег).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...