Как сделать Webscraping Instagram Профиль Ссылка BeautifulSoup? - PullRequest
0 голосов
/ 30 января 2019

Я только начинаю изучать, как работать в Интернете, используя BeautifulSoup, и хочу написать простую программу, которая будет получать ссылки профиля (instagram url) моего кумира через FullName в Instagram.

Пример: у меня список FullName хранится в файле fullname.txt следующим образом:

#cat fullname.txt
Cristiano Ronaldo
David Beckham
Michael Jackson

Мой результат:

https://www.instagram.com/cristiano/
https://www.instagram.com/davidbeckham/
https://www.instagram.com/michaeljackson/

Можете ли вы дать мне несколько советов??

1 Ответ

0 голосов
/ 30 января 2019

Это сработало для всех 3 имен и нескольких других, которые я добавил в fullname.txt

. Он использует библиотеку запросов и поиск Bing, чтобы найти правильную ссылку, а затем использует регулярные выражения для анализа ссылки.возвращенного пакета.


import requests, re

def bingsearch(searchfor):

    link = 'https://www.bing.com/search?q={}&ia=web'.format(searchfor)

    ua = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36'}

    payload = {'q': searchfor}

    response = requests.get(link, headers=ua, params=payload)               

    try:
        found = re.search('Search Results(.+?)</a>', response.text).group(1)

        iglink = re.search('a href="(.+?)"', found).group(1)

    except AttributeError:
        iglink = "link not found"

    return iglink


with open("fullname.txt", "r") as f:
    names = f.readlines()

for name in names:
    name = name.strip().replace(" ", "+")

    searchterm = name + "+instagram"

    IGLink = bingsearch(searchterm)

    print(IGLink)

...