Удалить строку Sub из большого текстового файла - PullRequest
0 голосов
/ 09 марта 2020

Я использую зонтик Cisco 1 миллион. Я обнаружил, что он включает в себя множество поддоменов. Только на google.com содержится более 2400 доменов. Я хочу удалить дочерние домены из первого миллиона Cisco и посмотреть, сколько доменов осталось в файле

Есть ли bash команда, которая удаляет подстроки, т. е. если входной файл содержит

google.com
play.google.com 
drive.google.com

, результат должен выглядеть примерно так:

google.com

Во-вторых, я попытался выполнить код python. Потребовалось много времени, так как каждый домен проверяется на 1 миллион доменов

import csv
domain_list=[]
import json
with open("~/Downloads/1/top-1m.csv", "r") as f:
    reader = csv.reader(f, delimiter=',')
    for row in reader:
        domain_list.append(row[1])
multiple_domain=dict()
count=0
total_iter_json=0

for domain in domain_list:
    count=count+1
    print(count)
    res = [i for i in domain_list if '.'+domain in i] 
    if(len(res)>1):
        result=[]
        result.append(len(res))
        result.extend(res)
        multiple_domain[domain]=result

Что я могу сделать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...