Я новичок в кодировании, и мой друг сказал мне использовать BeautifulSoup вместо htmlparser. После некоторых проблем я получил совет использовать lxml вместо BeaytifulSoup, потому что он в 10 раз лучше.
Я надеюсь, что кто-нибудь подскажет, как почистить текст, который я ищу.
Я хочу найти таблицу со следующими строками и данными:
<tr>
<td><a href="website1.com">website1</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam1.com">spam1</a></td>
</tr>
<tr>
<td><a href="website2.com">website2</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam2.com">spam2</a></td>
</tr>
Как мне очистить сайт с информацией 1 и 2, без спама, с lxml
и получить следующие результаты?
[['url' 'info1', 'info2'], ['url', 'info1', 'info2']]