У меня есть следующий HTML-код: -
<table class="results">
<tr>
<td>
<a href="..">link</a><span>2nd Mar 2011</span><br>XYZ Consultancy Ltd<br>
<div>....</div>
</td>
</tr>
</table>
Я использую код lxml + python для разбора файла HTML. Я хочу получить "XYZ Consultancy Ltd", но не могу узнать, как это сделать. Пока мой код выглядит следующим образом: -
import lxml.html
for el in root.cssselect("table.results"):
for el2 in el: #tr tags
for e13 in el2:#td tags
for e14 in e13:
if ( e14.tag == 'a') :
print "keyword: ",e14.text_content()
if (e14.tag == 'span'):
print "date: ",e14.text_content()