Я просто хочу предупредить. Я все еще учусь этому, поэтому могут присутствовать очевидные ошибки.
Я пытаюсь заставить мою функцию сделать 1.Create словарной переменной, которая является глобальной, чтобы отслеживать все уникальные слова и их значения DF (частота документа). 2. Создайте все oop - go через все файлы .txt в аргументе пути. 3. Создайте объект Document (на основе класса Document), используя имя файла в качестве параметра doc_id. Например, doc_id должно быть 2 для 2.txt.
Считать содержимое (текстовые строки) из текстового файла.
Вызвать функцию объекта документа .tokenize () для обработки текстового содержимого .
Вызовите функцию save_dictionary (), чтобы сохранить словарь документа с TF (термин частоты) в файл, где имя файла должно быть tf_DOCID.txt по тому же пути.
Так что код что у меня сейчас есть:
class document:
def __init__(self, doc_id):
# create a new document with its ID
self.id = doc_id
# create an empty dictionary
# that will hold the term frequency (TF) counts
self.tfs = {}
def tokenization(self, text):
# split a title into words,
# using space " " as delimiter
words = text.lower().split(" ")
for word in words:
# for each word in the list
if word in self.tfs:
# if it has been counted in the TF dictionary
# add 1 to the count
self.tfs[word] = self.tfs[word] + 1
else:
# if it has not been counted,
# initialize its TF with 1
self.tfs[word] = 1
def save_dictionary(diction_data, file_path_name):
# print the key-values pair in a dictionary
f = open("./textfiles", "w+")
for key in diction_data:
f.print(key, diction_data[key])
f.close()
def vectorize(data_path):
documents[]
for i in range(0, len(documents)):
document = documents[i]
# create a new document with an ID
document = Document(i+1)
# compute term frequencies (TF)
documemt.tokenization(vectorize)
# add the documents to the list
documents.append(document)
Где бы я go следующий. Я застрял в этой точке того, что я пытаюсь заставить это сделать. Я почти уверен, что заполнил переменную словаря, и я думаю, что l oop завершен, как бы я сделал объект документа, который является шагом 3.