Я загрузил файл данных (34 миллиона строчных предложений), который занял 4 ГБ памяти на моем ноутбуке.
Во время предварительной обработки память увеличилась на 1,5 ГБ после обработки 2 миллионов предложений.
count = 0
for line in lines:
lines[count] = re.findall(r"[\w']+|[().,:!?;'$&]", line)
count += 1
if count % 100000 == 0:
print(count)
gc.collect()
Может кто-нибудь объяснить, почему и как его оптимизировать?