Поиск полного URL на основе известного домена - PullRequest
0 голосов
/ 25 января 2019

Использование BeautifulSoup для извлечения веб-страницы на основе поиска Google для известного домена, такого как .microsoft.com.Я хочу получить весь URL, включая префикс "http (s): //".

Я получаю действительные узлы, но не понимаю, как указать методу find_all включить весь текстслева от целевого текста, включая первое вхождение "http".

import requests
from bs4 import BeautifulSoup
import urllib3
import re

def make_soup(url):
    http = urllib3.PoolManager()
    r = http.request("GET", url)
    return BeautifulSoup(r.data,'lxml')

# to search 
query = "\"\.microsoft\.com\""
try:
    from googlesearch import search
    for j in search(query, tld="com", num=10, stop=1, pause=2): 
        #print(j)
        page = make_soup(j)

        for node in page.find_all(text=lambda x: x and ".microsoft.com" in x):
            print(node)
except ImportError:
    print("No module named 'google' found")

Я получаю приличные результаты, которые заканчиваются на ".microsoft.com", но я хочу, чтобы результаты включалиполный URL, начинающийся с "http ... microsoft.com"

...