Я пытался извлечь значения из HTML-кода, используя urllib и регулярные выражения в python3, и когда я попытался запустить этот код, он дал мне только одну из цифр числа вместо обоих значений, даже если я добавил "+ знак, означающий один или несколько раз. Что здесь не так?
import re
import urllib.error,urllib.parse,urllib.request
from bs4 import BeautifulSoup
finalnums=[]
sumn=0
urlfile = urllib.request.urlopen("http://py4e-data.dr-chuck.net/comments_42.html")
html=urlfile.read()
soup = BeautifulSoup( html,"html.parser" )
spantags = soup("span")
for span in spantags:
span=span.decode()
numlist=re.findall(".+([0-9].*)<",span)
print(numlist)
finalnums.extend(numlist)
for anum in finalnums:
sumn=sumn+int(anum)
print("Sum = ",sumn)
Это пример строки, из которой я пытаюсь извлечь число:
<span class="comments">54</span>