Проблемы создания функции векторизации - PullRequest
0 голосов
/ 29 апреля 2020

Я просто хочу предупредить. Я все еще учусь этому, поэтому могут присутствовать очевидные ошибки.

Я пытаюсь заставить мою функцию сделать 1.Create словарной переменной, которая является глобальной, чтобы отслеживать все уникальные слова и их значения DF (частота документа). 2. Создайте все oop - go через все файлы .txt в аргументе пути. 3. Создайте объект Document (на основе класса Document), используя имя файла в качестве параметра doc_id. Например, doc_id должно быть 2 для 2.txt.

Считать содержимое (текстовые строки) из текстового файла.

Вызвать функцию объекта документа .tokenize () для обработки текстового содержимого .

Вызовите функцию save_dictionary (), чтобы сохранить словарь документа с TF (термин частоты) в файл, где имя файла должно быть tf_DOCID.txt по тому же пути.

Так что код что у меня сейчас есть:

class document: 
def __init__(self, doc_id):
    # create a new document with its ID
    self.id = doc_id
    # create an empty dictionary 
    # that will hold the term frequency (TF) counts
    self.tfs = {}

def tokenization(self, text):
    # split a title into words, 
    # using space " " as delimiter
    words = text.lower().split(" ")
    for word in words: 
        # for each word in the list
        if word in self.tfs: 
            # if it has been counted in the TF dictionary
            # add 1 to the count
            self.tfs[word] = self.tfs[word] + 1
        else:
            # if it has not been counted, 
            # initialize its TF with 1
            self.tfs[word] = 1

def save_dictionary(diction_data, file_path_name):
# print the key-values pair in a dictionary
f = open("./textfiles", "w+")
for key in diction_data: 
    f.print(key, diction_data[key])
    f.close()

def vectorize(data_path):
documents[]
for i in range(0, len(documents)):
    document = documents[i]

# create a new document with an ID
document = Document(i+1)

# compute term frequencies (TF)
documemt.tokenization(vectorize)

# add the documents to the list
documents.append(document)

Где бы я go следующий. Я застрял в этой точке того, что я пытаюсь заставить это сделать. Я почти уверен, что заполнил переменную словаря, и я думаю, что l oop завершен, как бы я сделал объект документа, который является шагом 3.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...