Python извлекает веб-ссылки из текущих оценок Бюро переписей США и выводит ссылки в формате CSV в абсолютном и недублированном формате - PullRequest
0 голосов
/ 21 января 2020

Используя блокнот Jupyter, я начал перетягивать все ссылки HTML с веб-страницы текущих оценок из Бюро переписей США. Кажется, что все в порядке, пока я не перейду к Input 13, который должен извлекать элементы по классу, равному uscb, используя аргумент attribute. Uscb, похоже, был похож на все ссылки, но когда я запускаю код, вывод пуст.

enter image description here

enter image description here

enter image description here

1 Ответ

0 голосов
/ 22 января 2020

soup.find_all({'class':'uscb-'}) будет искать точные совпадения, которые он не найдет. Он также ничего не найдет, потому что у вас нет указанного тега. Что вам нужно сделать, это найти классы, которые содержат эту подстроку, которые вы можете использовать регулярное выражение. И включите тег:

import re

soup.find_all('a',{'class':re.compile(r'uscb')})

Если вы хотите найти этот класс независимо от тега, то вы также можете использовать для этого регулярное выражение:

import re

soup.find_all(re.compile(r'(\w+)'),{'class':re.compile(r'uscb')})
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...