Как получить URL-адрес, идентифицированный в python, без указания тегов и удаления мусора? - PullRequest
0 голосов
/ 27 июня 2018

Как получить URL-адрес, идентифицированный в python, без указания тегов и удаления мусора?

Я знаю обычный подход, получение данных из urlopen, а затем BeautifulSoup для идентификации тега контента. Что я действительно хочу знать, так это какой-нибудь универсальный метод или библиотека, которые делают это без указания тегов.

1 Ответ

0 голосов
/ 27 июня 2018

Если вы хотите извлечь текст из HTML:

from bs4 import BeautifulSoup 
soup = BeautifulSoup(html) 
text = soup.get_text() 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...