Получить информацию о продукте с веб-страницы, используя python и селен - PullRequest
0 голосов
/ 21 января 2020

У меня есть требование удалить некоторые данные с веб-страниц. Я использую для этого селен с Python, но не смог получить желаемых результатов. Если кто-нибудь может подсказать мне, что делать или как я могу изменить код чтобы получить желаемые результаты, это будет очень полезно.

Мне нужно получить результаты в следующем порядке. Позиция, название продукта, URL и название компании.

Сценарий ниже может получить все названия заголовков, но с дополнительными символами "\ n" и не могут получить другие подробности. Может ли кто-нибудь помочь мне с этим или дать предложения по этому вопросу, пожалуйста?

from bs4 import BeautifulSoup
from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 
from selenium.common.exceptions import TimeoutException

option = webdriver.ChromeOptions()
option.add_argument(" — incognito")
#browser = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver/', chrome_options=option)
browser = webdriver.Chrome(executable_path='/users/user_1566/downloads/chrome_driver/chromedriver', chrome_options=option)

browser.get('https://www.google.com/search?q=samsung+note10')
#items = len(browser.find_elements_by_class_name("cu-container"))
#items = len(browser.find_elements_by_class_name("mnr-c pla-unit"))
#print(items)
timeout = 20
try:
    WebDriverWait(browser, timeout).until(EC.visibility_of_element_located((By.XPATH, "//div[@class='top-pla-group-inner']")))
except TimeoutException:
    print('Timed out waiting for page to load')
    #browser.quit()

titles_element = browser.find_elements_by_xpath("//div[@class='mnr-c pla-unit']")
# use list comprehension to get the actual repo titles and not the selenium objects.
titles = [x.text for x in titles_element]
# print out all the titles.
print('titles:')
print(titles, '\n')

language_element = browser.find_elements_by_xpath("//a[@class=''plantl pla-unit-single-clickable-target clickable-card']")
print(language_element)
# same concept as for list-comprehension above.
languages = [x.text for x in language_element]
print("languages:")
print(languages, "\n")


for title, language in zip(titles, languages):
    print("RepoName : Language")
    print(title + ": " + language, "\n")        

enter image description here enter image description here

enter image description here

Ожидаемый вывод из URL https://www.google.com/search?q=samsung+note10

    Position  Company_Name     Product_Name                                 URL 

    1         CHECK24          Samsung Galaxy Note10 256 GB 
                               glow mit Vertrag + Allnet Flat bei                                                                     

1 Ответ

0 голосов
/ 21 января 2020

попробуйте

details=browser.find_elements_by_class_name("pymv4e")
for i in details:
    print(str(i))

, после чего вы отобразите, как вы хотели

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...