Устранение неполадок при очистке данных от скрытого веб-элемента - aria-hidden = 'true' - PullRequest
0 голосов
/ 23 апреля 2020

Я изучаю очистку веб-страниц, поскольку я собираю реальные данные с реальных веб-сайтов. До сих пор у меня были некоторые успехи, когда я понял, что некоторые веб-страницы могут быть проблематичными c.

Fastforward, что я в конечном итоге хочу почерпнуть из этой веб-страницы: название-списка, адрес, долгота-данные и широта данных.

Мне удалось очистить список-заголовок с использованием BeautifulSoup и Selenium. * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * '' '' '' '' '' '' 'На самом деле не виден на веб-странице, а виден только при проверке кода * 1025 ". Здесь кроется проблема, все адреса имеют aria-hidden = 'true', как видно ниже. Есть ли способ получить адрес в принципе.

... `en

        <span class="listing-address hidden">
    Robin Way, Chelmsford, UK   </span>
        <div class="wrapper-list">
            <div class="listing-image">
                <div class="listing-image-inner">
                    <div class="top-imformation">
                        <div class="listing-preview-wrapper pull-left">
                            <a href="#preview-4011" class="listing-preview" data-id="4011"><i class="flaticon-visible"></i><span class="preview-text">Preview</span></a>
                        </div>ter code here` 

Кроме того, интересно, есть ли возможность извлечения данных карты, например, долготы и широты. Цвет: желтый ниже Изображение html веб-страница (адрес выделен черным, длинный / лат желтым

Ниже приведен мой источник, наиболее важно написанный на python

import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver import Chrome
import pandas as pd
import os

url='https://www.essexmap.co.uk/listing-category/volunteering/'

driver = webdriver.Chrome(chromedriver)
driver.get(url)


html =driver.page_source
soup=BeautifulSoup(html, "html.parser")
News_df = pd.DataFrame( { "Name_of_organization": Company } )

from selenium.webdriver.common.by import By

##Attempting to get the latitude, but failed..
driver.find_element(By.XPATH("//div[@class='col-md-12 col-sm-12']")).getAttribute('data-latitude')

Заранее спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...