как разбить огромный HTML-файл на маленькие файлы - PullRequest
0 голосов
/ 20 февраля 2019

Я пытаюсь взять массивный HTML-файл и разбить его на разделы.Файл сгенерирован Дженкинсом и выглядит так:

[XXX] text1
[XXX] text2
[YYY] text4
[XXX] text3
[YYY] text5
[ZZZ] text6
...

Я пытался сделать следующее:

my_dict = {}
text, header = re.split('\n\[[A-Za-z]+\]'), re.match('\n\[[A-Za-z]+\]')
for idx, (header, text) in enumerate(zip(header, text)):
    try:
        my_dict[header] += text
    except KeyError:
        my_dict[header] = text
    print idx

, но это занимает слишком много времени (idx ~ 200K).Могу ли я сделать это как-нибудь быстрее?

1 Ответ

0 голосов
/ 20 февраля 2019

хорошо, решил это ... Я разделил цикл на 10K шагов, и это просто заставило его быстро сойти с ума в компании.Думаю, я просто слишком много занимал ОЗУ

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...