Во-первых, убедитесь, что очистка их сайта является законной.
Во-вторых, обратите внимание, что когда документ отсутствует, файл HTML содержит:
<title>Application Error</title>
В-третьих, используйте urllib дляпереберите все, что вы хотите:
for p in range(1,7):
for y in range(2000, 2011):
doc = 1
while True:
# use urllib to open the url: (root)+p+y+doc
# if the HTML has the string "application error" break from the while
doc+=1