Question

Я работаю над проектом классификации вредоносных программ с использованием набора данных Microsoft.Я взял подмножество набора данных, то есть 10 образцов каждого класса.Я пытаюсь использовать биграммы в качестве функции, предоставляемой нейронной сети.но я сталкиваюсь с проблемой извлечения ngrams из нескольких файлов.

'def make_dict ():

direc = "/content/drive/My Drive/DATA/"
files = os.listdir(direc)
doc = [direc + doc for doc in files]
grams = []
c = len(doc)
for dec in doc:
    f = open(dec , encoding="utf8", errors='ignore')
    text = f.read()
    tokenized = text.split()
    esBigrams = ngrams(tokenized, 2)
    temp = list(esBigrams)
    grams += temp


dictionary = collections.Counter(temp)

return dictionary.most_common(300)`

Я вызываю функцию make_dict. После некоторого времени обработки она выдает ошибку.0] == '': и ядро умирает и выдает ошибку памяти. Что может быть другим возможным решением.

После печати списка ngrams.Google colab показывает ошибку.

Error

Создавайте биграммы из нескольких файлов asm, используя nltk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Создавайте биграммы из нескольких файлов asm, используя nltk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы