Как использовать селен в pandas для чтения веб-страницы? - PullRequest
2 голосов
/ 06 мая 2020

Я хочу собрать информацию о веб-странице с помощью chromedriver. Как мне установить и использовать?

Ответы [ 3 ]

1 голос
/ 07 мая 2020

Вы должны сначала установить селен, если у вас его еще нет. Затем использовать селен:

from selenium.webdriver import Chrome
url="URL of the webpage you want to read"

настройка драйвера

webdriver = "path of the chromedriver.exe file saved in your pc"
driver.get(url)

с использованием css селектора

y = driver.find_element_by_css_selector('css selector of the data you want to read from the webpage').text
print(y)
1 голос
/ 07 мая 2020

Как упоминал @Patha_Mondal, вам необходимо загрузить драйвер и выбрать элементы, которые вы хотите прочитать. Однако, поскольку ваш исходный вопрос спрашивает: «Как использовать селен в pandas для чтения веб-страницы?», Я бы сказал, вместо этого подумайте об использовании Scrapy вместе с Selenium для создания файла «.csv» из данных веб-страницы.

Считайте данные ".csv" в pandas с помощью pandas .read_csv ().

Данные с веб-страницы могут быть нечеткими или неправильно отформатированными. Использование Scrapy для создания набора данных из него будет полезно для чтения его в pandas. Избегайте использования pandas непосредственно в том же скрипте, что и Selenium и Scrapy.

Надеюсь, это помогло.

1 голос
/ 06 мая 2020

Вы не устанавливаете хромированный драйвер - вы загружаете .exe (отсюда) и используете путь к нему в webdriver.Chrome(). На этой странице начала работы есть подробное руководство:

from selenium import webdriver

driver = webdriver.Chrome('/path/to/chromedriver')  # refers to the path where you saved the exe
driver.get('http://www.google.com/');
time.sleep(5) # Let the user actually see something!
search_box = driver.find_element_by_name('q')
search_box.send_keys('ChromeDriver')
search_box.submit()
time.sleep(5) # Let the user actually see something!
driver.quit()

Примечание: загрузите .exe, который соответствует вашей версии chrome! (В Help > About Google Chrome)

...