Создавайте биграммы из нескольких файлов asm, используя nltk - PullRequest
0 голосов
/ 28 февраля 2019

Я работаю над проектом классификации вредоносных программ с использованием набора данных Microsoft.Я взял подмножество набора данных, то есть 10 образцов каждого класса.Я пытаюсь использовать биграммы в качестве функции, предоставляемой нейронной сети.но я сталкиваюсь с проблемой извлечения ngrams из нескольких файлов.

'def make_dict ():

direc = "/content/drive/My Drive/DATA/"
files = os.listdir(direc)
doc = [direc + doc for doc in files]
grams = []
c = len(doc)
for dec in doc:
    f = open(dec , encoding="utf8", errors='ignore')
    text = f.read()
    tokenized = text.split()
    esBigrams = ngrams(tokenized, 2)
    temp = list(esBigrams)
    grams += temp


dictionary = collections.Counter(temp)

return dictionary.most_common(300)`

Я вызываю функцию make_dict. После некоторого времени обработки она выдает ошибку.0] == '': и ядро ​​умирает и выдает ошибку памяти. Что может быть другим возможным решением.

После печати списка ngrams.Google colab показывает ошибку.

Error

...