, как говорили другие, 10 тыс. Строк не проблема для компьютеров с гигабайтами памяти. важные шаги:
- выяснить, как получить идентификатор из строк в первом файле
- и снова, но для второго файла
- поставить ихвместе, чтобы перебрать строки в каждом файле и получить выходные данные
регулярные выражения для работы с таким текстом, я получаю регулярные выражения, которые выглядят как /([0-9]+)/$
и :([0-9]+)
для двух файлов (сервисов)как https://regex101.com/ отлично подходит для игры)
вы можете собрать их вместе в Python, выполнив:
from sys import stderr
import re
# collect all exploits for easy matching
exploits = {}
for line in open('file_2'):
m = re.search(r':([0-9]+) ', line)
if not m:
print("couldn't find an id in:", repr(line), file=stderr)
continue
[id] = m.groups()
exploits[id] = line
# match them up
for line in open('file_1'):
m = re.search(r'/([0-9]+)/$', line)
if not m:
print("couldn't find an id in:", repr(line), file=stderr)
continue
[id] = m.groups()
if id in exploits:
pass # print(line, 'matched with', exploits[id])
else:
print(line)