Я использую зонтик Cisco 1 миллион. Я обнаружил, что он включает в себя множество поддоменов. Только на google.com содержится более 2400 доменов. Я хочу удалить дочерние домены из первого миллиона Cisco и посмотреть, сколько доменов осталось в файле
Есть ли bash команда, которая удаляет подстроки, т. е. если входной файл содержит
google.com
play.google.com
drive.google.com
, результат должен выглядеть примерно так:
google.com
Во-вторых, я попытался выполнить код python. Потребовалось много времени, так как каждый домен проверяется на 1 миллион доменов
import csv
domain_list=[]
import json
with open("~/Downloads/1/top-1m.csv", "r") as f:
reader = csv.reader(f, delimiter=',')
for row in reader:
domain_list.append(row[1])
multiple_domain=dict()
count=0
total_iter_json=0
for domain in domain_list:
count=count+1
print(count)
res = [i for i in domain_list if '.'+domain in i]
if(len(res)>1):
result=[]
result.append(len(res))
result.extend(res)
multiple_domain[domain]=result
Что я могу сделать?