Поиск идентификатора твита со страницы разобранного html - PullRequest
0 голосов
/ 27 мая 2018

Я пытаюсь получить идентификатор твита из проанализированного HTML.Вот мой код:

tweet_ids = []
stat = statnum_parser(page_soup)
name = stat["Full_Name"]
print(page_soup.select("div.tweet"))
for tweet in page_soup.select("div.tweet"):   # doesn't work properly
    if tweet['data-name'] == name:
        tweet_ids.append(tweet['data-tweet-id'])

Условие if проверяет, не твитнут ли твит.Цикл for не работает должным образом.Кто-нибудь может мне помочь?

Я использую Selenium, BeautifulSoup

1 Ответ

0 голосов
/ 30 мая 2018

Я разобрался в проблеме.Проблема была не в том, чтобы правильно использовать селен с BeautifulSoup.Вот код для правильного получения HTML-содержимого статического веб-сайта:

    import selenium as webdriver
    path_to_chrome_driver="path_to_your_chrome_driver"
    driver = webdriver.Chrome(executable_path=path_to_chrome_driver)
    driver.base_url = "URL of the website"
    driver.get(driver.base_url)
...