Как вычеркнуть URL с сайта с python красивым супом? - PullRequest
1 голос
/ 18 февраля 2020

Я пытался очистить некоторые URL-адреса от конкретной ссылки, я использовал Beautiful-Soup для очистки этих ссылок, но я не могу очистить эти ссылки. Здесь я прилагаю код, который я использовал. На самом деле, я хочу очистить URL-адреса от класса "fxs_aheadline_tiny"

import requests
from bs4 import BeautifulSoup

url = 'https://www.fxstreet.com/news?q=&hPP=17&idx=FxsIndexPro&p=0&dFR%5BTags%5D%5B0%5D=EURUSD'
r1 = requests.get(url)
coverpage = r1.content
soup1 = BeautifulSoup(coverpage, 'html.parser')
coverpage_news = soup1.find_all('h4', class_='fxs_aheadline_tiny')
print(coverpage_news)

Спасибо

1 Ответ

0 голосов
/ 18 февраля 2020

Я бы использовал Selenium. Пожалуйста, попробуйте этот код:

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options

#open driver
driver= webdriver.Chrome(ChromeDriverManager().install())
driver.get('https://www.fxstreet.com/news?q=&hPP=17&idx=FxsIndexPro&p=0&dFR%5BTags%5D%5B0%5D=EURUSD')

# Use ChroPath to identify the xpath for the 'page hits'
pagehits=driver.find_element_by_xpath("//div[@class='ais-hits']")

# search for all a tags
links=pagehits.find_elements_by_tag_name("a")

# For each link get the href
for link in links:
    print(link.get_attribute('href'))

Он точно делает то, что вы хотите: он удаляет все URL / ссылки на вашей странице поиска (это означает также ссылки на страницы авторов).

Вы можете даже подумать об автоматизации браузера и перемещаться по результатам поиска на странице. Для этого смотрите документацию Selenium: https://selenium-python.readthedocs.io/

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...