Ошибка памяти при запуске скрипта Python для файла 4 ГБ - PullRequest
0 голосов
/ 01 июня 2018

Я пытаюсь посчитать количество слов длиной от 1 до 5, размер файла составляет около 4 ГБ. В конце я получаю ошибку памяти.

import os 
files = os.listdir('C:/Users/rram/Desktop/') 
for file_name in files:     
    file_path = "C:/Users/rram/Desktop/"+file_name     
    f = open (file_path, 'r')    
    text = f.readlines()
    update_text = '' 
    wordcount = {}
    for line in text:         
        arr = line.split("|")
        word = arr[13]
        if 1<=len(word)<6:
            if word not in wordcount:
                wordcount[word] = 1
        else:
            wordcount[word] += 1
            update_text+= '|'.join(arr)
print (wordcount)     #print update_text
print 'closing', file_path, '\t', 'total files' , '\n\n'
f.close()

В конце я получаю MemoryErrorэта строка text = f.readlines()

Можете ли вы помочь, чтобы оптимизировать ее.

1 Ответ

0 голосов
/ 01 июня 2018

Как предлагается в комментариях, вы должны читать файл построчно, а не весь файл.

Например:

count = 0
with open('words.txt','r') as f:
    for line in f:
        for word in line.split():
          if(1 <= len(word) <=5):
              count=count+1
print(count)

РЕДАКТИРОВАТЬ:

Если вы хотите только посчитать слова в 14-м слове и разделить их на "|"вместо этого:

count = 0
with open('words.txt','r') as f:
    for line in f:
        iterator = 0
        for word in line.split("|"):
            if(1 <= len(word) <=5 and iterator == 13):
                count=count+1
            iterator = iterator +1
print(count)

обратите внимание, что вам следует избегать записи этого

arr = line.split("|")
word = arr[13]

, поскольку строка может содержать менее 14 слов, что может привести к ошибке сегментации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...