Как удалить слова до и внутри тега, используя Python и BeautifulSoup? - PullRequest
0 голосов
/ 24 октября 2018

Очевидно, я очень плохо знаком с Python и BS.

Я пытаюсь получить информацию с веб-сайта, используя BeautifulSoup, и это блок, из которого я хочу извлечь данные:

        <div class="log-main">
        <div class="report">
        <div class="date">
            <p class="posted">Posted on  October&nbsp;22, 2018
            </p>   
        </div>


        <h1>Upper Bay Largemouth Bass Stocking</h1>
        <p class="subP">
            Type: <strong>Tidal</strong><br />
            Region: <strong>Central</strong><br />
            Location: <strong>Middle River</strong>
        </p>

Результаты, которые мне нужны, - это дата без «Опубликовано», поэтому 22 октября 2018 г. и Тип: Регион: и Местоположение: в виде списка, но без заголовков, поэтому только текст в сильных тегах (Tidal, Central иСредняя река).

    October 22, 2018
    Tidal
    Central
    Middle River

Вот мой код:

    import requests
    from bs4 import BeautifulSoup
    r = 
    requests.get('http://dnrweb.dnr.state.md.us/fisheries/fishingreport/log- 
    1.asp')
    soup = BeautifulSoup (r.text, 'html.parser')

    date = soup.find_all ('p', attrs={'class':'posted'})

    data = soup.find_all ('p', attrs={'class':'subP'})

    for strong_tag in data:
         print strong_tag.text

    for p_tag in date:
         print p_tag.text

И мои результаты:

    Type: Tidal

            Region: Central

            Location: Middle River

    Posted on  October 22, 2018

Идея состоит в том, что я хочу в конечном итоге импортировать это вТаблица Excel, но я чувствую, что я рядом.Хотя я мог быть полностью выключен.Я пробовал несколько вещей, но трудно найти точный ответ через похожие видео / темы.Спасибо за любую помощь, я действительно ценю это!

...