Как создать инвертированный индекс, содержащий информацию о количестве вхождений каждого слова в каждом документе - PullRequest
0 голосов
/ 30 декабря 2018

У меня есть набор данных, содержащий 250 точек данных текстовой информации.Теперь мне нужно создать инвертированный индекс, содержащий информацию о появлении каждого слова в каждом ключе.У меня около 250 ключей и список предварительно обработанной коллекции слов.

Я пытался поиграть с библиотеками Whoosh, но без особого успеха.Документация кажется немного расплывчатой ​​о том, как это работает.Я получаю Неизвестную ошибку поля.

from whoosh.fields import Schema, TEXT, KEYWORD, ID, STORED
from whoosh.analysis import StemmingAnalyzer
schema = Schema(Title = ID(stored = True), Content = `enter code here`KEYWORD(stored = True))
import os, os.path
from whoosh import index
if not os.path.exists('inv_indexdir'):
    os.mkdir('inv_indexdir')
ix = index.create_in('inv_indexdir', schema)
import whoosh.index as index
ix = index.open_dir('inv_indexdir')
writer = ix.writer()
writer.add_document(title = u'Title', content = u'Content', path = u'json_data.json')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...