Как очистить текст от div с пустым значением класса - PullRequest
0 голосов
/ 28 апреля 2018

Привет, как соскрести текст с div без какого-либо класса? Сначала я пытаюсь очистить все данные из div с помощью класса 'page pages', затем без значения класса, но это не работает.

enter image description here

from bs4 import BeautifulSoup
import requests

a = {}


def antal_pl(name=''):
    try:
        page_response = requests.get('https://antal.pl/oferty-pracy?s=&sid=&did=Accountancy', timeout=40).text
        page_content = BeautifulSoup(page_response, 'lxml')
        data = page_content.find_all(class_ = 'jobs_page')
        data_in = data.find_all('div', class_ = None)
        print(data_in)

    except:
        ''
antal_pl( name='Accontancy')

Ответы [ 2 ]

0 голосов
/ 28 апреля 2018

Попробуйте следующий подход, чтобы получить текст с этой веб-страницы, как вы упомянули выше. Я попытался немного упорядочить ваш код, чтобы он выглядел чище.

from bs4 import BeautifulSoup
import requests

URL = "https://antal.pl/oferty-pracy?s=&sid=&did={}"

def antal_pl(name):
    res = requests.get(URL.format(name))
    soup = BeautifulSoup(res.text, 'lxml')
    data = soup.find(class_='header').find_next_sibling().text.strip()
    print(data)

if __name__ == '__main__':
    antal_pl("Accountancy")

Результат:

Znaleziono 47 ofert pracy.
0 голосов
/ 28 апреля 2018

использовать XPATH

html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a')

введите описание изображения здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...