Я бы посоветовал вам заценить красивый суп https://pypi.org/project/beautifulsoup4/ Я использовал это для чистки таблиц,
def read_table(table):
"""Read an IP Address table.
Args:
table: the Soup <table> element
Returns:
None if the table isn't an IP Address table, otherwise a list of
the IP Address:port values.
"""
header = None
rows = []
for tr in table.find_all('tr'):
if header is None:
header = read_header(tr)
if not header or header[0] != 'IP Address':
return None
else:
row = read_row(tr)
if row:
rows.append('{}:{}'.format(row[0], row[1]))
return rows
Вот только фрагмент от одного из моих python projects https://github.com/backslash/WebScrapers/blob/master/us-proxy-scraper/us-proxy.py Вы можете использовать красивый суп, чтобы невероятно легко чистить столы, если вы беспокоитесь о том, что он заблокирован, вам просто нужно отправить правильные заголовки. Еще одним преимуществом использования красивого супа является то, что вам не нужно долго ждать много вещей.
HEADERS = requests.utils.default_headers()
HEADERS.update({
'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
})
Удачи