У меня есть следующий код, который я пишу, чтобы получить значения из файла warc. Моя цель - найти сайты, которые имеют:
User-Agent: *
Disallow: /
Я бы хотел, чтобы он печатал только те URL-адреса, которые имеют вышеуказанные правила robots.txt ^
Мой код Python, который в настоящее время печатает только одну строку, которая является URL:
file = 'robots.warc'
num_lines = sum(1 for line in open(file, errors='ignore'))
print('file has', num_lines , 'lines')
with open(file, errors='ignore') as lines:
for line in lines:
if line.startswith("WARC-Target-URI:"):
print(line)
Вот пример файла warc
Спасибо за вашу помощь!