Поэтому я ищу динамичный способ сканирования веб-сайта и получения ссылок с каждой страницы.Я решил поэкспериментировать с Beauitfulsoup.Два вопроса: как мне сделать это более динамически, чем при использовании вложенных операторов while для поиска ссылок.Я хочу получить все ссылки с этого сайта.Но я не хочу продолжать помещать вложенные циклы while.
topLevelLinks = self.getAllUniqueLinks(baseUrl)
listOfLinks = list(topLevelLinks)
length = len(listOfLinks)
count = 0
while(count < length):
twoLevelLinks = self.getAllUniqueLinks(listOfLinks[count])
twoListOfLinks = list(twoLevelLinks)
twoCount = 0
twoLength = len(twoListOfLinks)
for twoLinks in twoListOfLinks:
listOfLinks.append(twoLinks)
count = count + 1
while(twoCount < twoLength):
threeLevelLinks = self.getAllUniqueLinks(twoListOfLinks[twoCount])
threeListOfLinks = list(threeLevelLinks)
for threeLinks in threeListOfLinks:
listOfLinks.append(threeLinks)
twoCount = twoCount +1
print '--------------------------------------------------------------------------------------'
#remove all duplicates
finalList = list(set(listOfLinks))
print finalList
В любом случае, у меня есть второй вопрос, чтобы сказать, получил ли я все ссылки с сайта.Пожалуйста, прости меня, я немного новичок в Python (год или около того), и я знаю, что некоторые из моих процессов и логики могут быть детскими.Но я должен как-то учиться.В основном я просто хочу сделать это более динамичным, чем использование вложенного цикла while.Заранее благодарим за понимание.