В качестве инструмента для своей работы я пытаюсь написать код, который будет очищать информацию из онлайн-каталогов. Чтобы проверить это, я использую спортивные отделения колледжа. Я хочу поместить их в DataFrame, а затем добавить этот DataFrame в CSV с надлежащим форматированием.
В настоящее время я могу записать информацию из одного URL в .csv без проблем, если вся информация правильно отформатирована в разных ячейках; однако, когда я пытаюсь записать более одного, .csv записывается так, что каждый отдельный фрейм данных записывается так, что вся информация записывается в одной ячейке.
Вот мой код:
urls = ["https://webberathletics.com/staff.aspx",
"https://fordhamsports.com/staff.aspx"]
appended_data = []
for url in urls:
driver = webdriver.Chrome(r'C:\Users\webdrivers\chromedriver.exe')
driver.implicitly_wait(30)
driver.get(url)
tables = pd.read_html(driver.page_source)
df = tables
appended_data.append(df)
driver.close()
print("Finished "+ url)
dfs = pd.DataFrame(appended_data)
dfs.to_csv(r'C:\Users\Documents\test.csv')
Когда я просто печатаю Dataframes в цикле for, он выводит все данные из обоих URL
tables = pd.read_html(driver.page_source)
df = tables
print(df)
appended_data.append(df)
Однако, когда я запускаю весь код, это то, как выглядит мой CSV.
0 1
0 0
1
со всей информацией в ячейках 1,0
& 0,1