Да, да, я взвесил использование парсера xml вместо регулярных выражений, но это достаточно упрощенный случай, который подходит:
from BeautifulSoup import BeautifulSoup
from urllib import urlopen
tempSite = 'http://www.sumkindawebsiterighthur.com'
theTempSite = urlopen(tempSite).read()
currentTempSite = BeautifulSoup(theTempSite)
Email = currentTempSite.findAll('tr', valign="top")
print Email[0]
В настоящее время результаты с:
<tr valign="top">
<td><p>Phone Number:</p></td>
<td> </td>
<td><p>706-878-8888</p></td>
</tr>
Я пытаюсь удалить всю разметку (tr, td, p, тоже было бы неплохо) и результат:
Phone Number: 706-878-8888
Моя проблема заключается в чрезмерном исключении и регулярном выражении нескольких строк в поисках ответа, который выводится в одной строке.