Углубляясь в веб-сайт, в то время как веб-соскоб - PullRequest
0 голосов
/ 05 февраля 2019

Я пытаюсь отсканировать несколько веб-сайтов для текста, чтобы я мог провести перекрестную проверку с помощью набора и отобразить количество совпадений, которые отдельные слова имеют на этих веб-сайтах.Может кто-нибудь, пожалуйста, помогите мне сделать так, чтобы мой веб-скребок автоматически углублялся в сайт.

import requests
from bs4 import BeautifulSoup

url = 'https://www.theleela.com/en_us/hotels-in-mumbai/the-leela-mumbai-hotel/spa/'
page = requests.get(url)        #to extract page from website
html = page.content

soup = BeautifulSoup(html)

# kill all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip it out

# get text
text = soup.get_text()

# break into lines and remove leading and trailing space on each
lines = (line.strip() for line in text.splitlines())
# break multi-headlines into a line each
chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
# drop blank lines
text = '\n'.join(chunk for chunk in chunks if chunk)

Я призываю ко всем ссылкам на веб-странице, например:

for link in soup.find_all('a'):
  a = link.get('href')
  if type(a) == str and "https:" not in a:

Вот чтоЯ получаю:


Как видите, здесь все еще есть несколько не относящихся к делу ссылок


Мне нужна помощь, чтобы избавиться от них, чтобы я мог запустить скребок на петлесписок вывода.Цени любую помощь.

1 Ответ

0 голосов
/ 05 февраля 2019

Я сомневаюсь, что есть готовое решение, не зависящее от сайта.Основываясь на моем опыте работы со сканерами, мне пришло в голову несколько вещей:

  • Вы можете использовать страницу сайта sitemap , которая обычно предназначена для сканеров единомышленников и содержит ссылки на все важныестраницы, которые владельцы сайтов хотят, чтобы вы сканировали.robots.txt также может быть полезным.
  • Вы можете попробовать загрузить все страницы и использовать mimetypes lib и / или даже использовать Content-Type header
  • Возможно, вы захотите добавить некоторые эвристические ключевые слова или правила, например регулярные выражения, чтобы ваш сканер не мог достичь или сканировать определенные URL.
  • Наконец (если это огромный многомесячный проект для многих сотенили тысячи веб-сайтов) вы можете попытаться дополнительно ограничить URL-адреса с помощью машинного обучения.