rows = soup.find_all('tr')
print(rows[:10])
for row in rows:
row_td = row.find_all('td')
print(row_td)
type(row_td)
^ этот код выше - это то же самое, что и
urls=['some list of urls you want to scrape']
table_dfs= [pd.read_html(url) for url in urls]
, вы можете пролистать искомые URL-адреса и применить их, а затем, если вы хотите что-то сделать с /Таблицы, которые вы можете просто перейти:
for table in table_dfs:
table + 'the thing you want to do'
Обратите внимание, что встроенный цикл for table_dfs находится в списке.Это означает, что вы не сможете определить, с какого URL он пришел, если очистка достаточно большая. Pieca , похоже, нашел решение, которое можно было бы использовать для итерации URL-адресов веб-сайтов и создания ключа словаря.Обратите внимание, что это решение может применяться не ко всем веб-сайтам.
url_list = {page_number:"https://www.vesselfinder.com/vessels?page=
{}&minDW=20000&maxDW=300000&type=4".format(page_number) for page_number
in list(range(1, 953))}
table_dfs={}
for url in range(1,len(url_list)):
table_dfs[url]= pd.read_html(url_list[url],header=hdr)