Как насчет добавления
.split('&')[0]
к вашему коду таким образом, чтобы он стал:
import requests
from bs4 import BeautifulSoup
def search(keyword):
html = requests.get('https://www.google.co.kr/search?q={}&num=100&sourceid=chrome&ie=UTF-8'.format(keyword)).text
soup = BeautifulSoup(html, 'html.parser')
result = []
for i in soup.find_all('h3', {'class':'r'}):
result.append(i.find('a', href = True) ['href'][7:].split('&')[0])
return result
search('computer')
[EDIT]
Взяв https://en.wikipedia.org/wiki/Computer
в качестве примера:
С помощью инструментов разработчика Chrome URL-адрес выглядит чистым.
Так как он принадлежит <h3 class="r">
, ваш код должен работать нормально и возвращать чистый URL.
Вместо этого, если вы замените
result.append(i.find('a', href = True) ['href'][7:])
с
print i
тогда в моем терминале он возвращает следующее по вышеуказанной ссылке:
/url?q=https://en.wikipedia.org/wiki/Computer&sa=U&ved=0ahUKEwinqcqdypHdAhVhKH0KHVWIBEUQFggfMAU&usg=AOvVaw1pduIWw_TSCJUxtP9W_kHJ
вы можете видеть, что /url?q=
был добавлен, а &sa=U&ved=0ahUKEwinqcqdypHdAhVhKH0KHVWIBEUQFggfMAU&usg=AOvVaw1pduIWw_TSCJUxtP9W_kHJ
добавлен.
Просматривая и другие ссылки, я заметил, что предварительно добавленная часть всегда выглядит как /url?q=
, а добавленная часть всегда начинается с &
.
Поэтому я считаю, что мой оригинальный ответ должен сработать:
result.append(i.find('a', href = True) ['href'][7:].split('&')[0])
[7:]
удаляет предварительно добавленную строку, а split('&')[0]
добавленную строку.