Конвертировать данные HTML в текстовый формат - PullRequest
2 голосов
/ 28 апреля 2019

Я использую Selenium Web Driver для извлечения точек данных из профилей LinkedIn. В этом примере я хочу извлечь каждый навык из раздела навыков, но данные извлекаются в формате HTML.

При попытке преобразовать HTML-код в текст я получаю прикрепленное сообщение об ошибке.

from parsel import Selector  
from selenium import webdriver 
from selenium.webdriver.common.keys import Keys  
from bs4 import BeautifulSoup 

driver = webdriver.Chrome('/Users/davidcraven/Downloads/chromedriver')

# get profile URL
driver.get('https://www.linkedin.com/AnyProfileURL')

# assigning the source code for the web page to variable sel
sel = Selector(text=driver.page_source)

# get skills
skills = sel.xpath('//*[starts-with(@class, "skills searchable has-several ")]').extract()

newtext = BeautifulSoup(skills, "lxml").text

enter image description here

1 Ответ

1 голос
/ 28 апреля 2019

сначала нужно выбрать элемент:

driver.get('https://www.linkedin.com/AnyProfileURL')
soup = BeautifulSoup(driver.page_source, "lxml")
elem = soup.select_one('.skills.searchable.has-several')
if elem:
    txt = elem.text
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...