Я работаю над проектом классификации вредоносных программ с использованием набора данных Microsoft.Я взял подмножество набора данных, то есть 10 образцов каждого класса.Я пытаюсь использовать биграммы в качестве функции, предоставляемой нейронной сети.но я сталкиваюсь с проблемой извлечения ngrams из нескольких файлов.
'def make_dict ():
direc = "/content/drive/My Drive/DATA/"
files = os.listdir(direc)
doc = [direc + doc for doc in files]
grams = []
c = len(doc)
for dec in doc:
f = open(dec , encoding="utf8", errors='ignore')
text = f.read()
tokenized = text.split()
esBigrams = ngrams(tokenized, 2)
temp = list(esBigrams)
grams += temp
dictionary = collections.Counter(temp)
return dictionary.most_common(300)`
Я вызываю функцию make_dict. После некоторого времени обработки она выдает ошибку.0] == '': и ядро умирает и выдает ошибку памяти. Что может быть другим возможным решением.
После печати списка ngrams.Google colab показывает ошибку.
Error