Как проанализировать данные warc для информации robots.txt - PullRequest
0 голосов
/ 13 марта 2019

У меня есть следующий код, который я пишу, чтобы получить значения из файла warc. Моя цель - найти сайты, которые имеют:

User-Agent: * 
Disallow: /

Я бы хотел, чтобы он печатал только те URL-адреса, которые имеют вышеуказанные правила robots.txt ^

Мой код Python, который в настоящее время печатает только одну строку, которая является URL:

file = 'robots.warc'
num_lines = sum(1 for line in open(file, errors='ignore'))
print('file has', num_lines , 'lines')

with open(file, errors='ignore') as lines:
    for line in lines:
        if line.startswith("WARC-Target-URI:"):
            print(line)

Вот пример файла warc

Спасибо за вашу помощь!

...