Я пытаюсь получить строку сразу после открывающего тега <td>
.Следующий код работает:
webpage = urlopen(i).read()
soup = BeautifulSoup(webpage)
for elem in soup('td', text=re.compile(".\.doc")):
print elem.parent
, когда HTML выглядит так:
<td>plan_49913.doc</td>
, но не когда HTML выглядит так:
<td>plan_49913.doc<br />
<font color="#990000">Document superseded by:  </font><a href="/plans/Jan_2012.html">January 2012</a></td>
Я пытался играть с attrs, но не могу заставить его работать.По сути, я просто хочу захватить «plan_49913.doc» в любом экземпляре HTML.
Любой совет будет принята с благодарностью.
Заранее спасибо.
~ chrisK