Python 3 BS4 - извлечение данных из тегов <span>(продолжение) - PullRequest
0 голосов
/ 20 ноября 2018

Итак, у меня есть HTML-код, который выглядит следующим образом.

<li data-ng-repeat="sector in data.sectors"> <a target="_self" data-ng-href="/stocks/quotes/-382G/components/A" href="/stocks/quotes/-382G/components/A"><span>SIC-3826 Laboratory Analytical Instruments</span></a> </li>
 

И я хочу извлечь информацию из тега span.К сожалению, когда я использую следующий код:

tags = soup.findAll("li",attrs={"data-ng-repeat":"sector in data.sectors"})
# tags = soup.find_all("a",attrs= {"target=","data-ng-href="})
# tags = soup.find_all("a")
for tag in tags:
print(tag.text)

, результатом будет [[sector.description]].То, что я хочу извлечь, это информация, в том числе «SIC-3826 Лабораторные аналитические приборы»

Любая помощь будет принята с благодарностью.Я перепробовал все виды альтернатив, но не могу получить информацию, которую хочу.

Заранее спасибо!

1 Ответ

0 голосов
/ 20 ноября 2018

Да, все, что вам нужно сделать, это:

x = """<li data-ng-repeat="sector in data.sectors"> <a target="_self" data-ng-href="/stocks/quotes/-382G/components/A" href="/stocks/quotes/-382G/components/A"><span>SIC-3826 Laboratory Analytical Instruments</span></a> </li>"""

from bs4 import BeautifulSoup
print(BeautifulSoup(x, "lxml").text)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...