def makecounter():
return collections.defaultdict(int)
class RankedIndex(object):
def __init__(self):
self._inverted_index = collections.defaultdict(list)
self._documents = []
self._inverted_index = collections.defaultdict(makecounter)
def index_dir(self, base_path):
num_files_indexed = 0
allfiles = os.listdir(base_path)
self._documents = os.listdir(base_path)
num_files_indexed = len(allfiles)
docnumber = 0
self._inverted_index = collections.defaultdict(list)
docnumlist = []
for file in allfiles:
self.documents = [base_path+file] #list of all text files
f = open(base_path+file, 'r')
lines = f.read()
tokens = self.tokenize(lines)
docnumber = docnumber + 1
for term in tokens:
if term not in sorted(self._inverted_index.keys()):
self._inverted_index[term] = [docnumber]
self._inverted_index[term][docnumber] +=1
else:
if docnumber not in self._inverted_index.get(term):
docnumlist = self._inverted_index.get(term)
docnumlist = docnumlist.append(docnumber)
f.close()
print '\n \n'
print 'Dictionary contents: \n'
for term in sorted(self._inverted_index):
print term, '->', self._inverted_index.get(term)
return num_files_indexed
return 0
Я получаю ошибку индекса при выполнении этого кода: список индекса выходит за пределы диапазона.
Приведенный выше код генерирует индекс словаря, который хранит термин в качестве ключа и номера документов, в которыхТермин встречается в виде списка.Например: если термин «кот» встречается в документах 1.txt, 5.txt и 7.txt, словарь будет иметь следующий вид: cat <- [1,5,7] </p>
Теперь я должен изменитьэто добавить частоту термина, поэтому, если слово cat встречается дважды в документе 1, трижды в документе 5 и один раз в документе 7: ожидаемый результат: term <- [[docnumber, term freq], [docnumber, term freq]] <--список списков в дикте !!!cat <- [[1,2], [5,3], [7,1]] </p>
Я поиграл с кодом, но ничего не работает.Я понятия не имею, как изменить эту структуру данных для достижения вышеуказанного.
Заранее спасибо.