Question

У меня есть набор данных, содержащий 250 точек данных текстовой информации.Теперь мне нужно создать инвертированный индекс, содержащий информацию о появлении каждого слова в каждом ключе.У меня около 250 ключей и список предварительно обработанной коллекции слов.

Я пытался поиграть с библиотеками Whoosh, но без особого успеха.Документация кажется немного расплывчатой о том, как это работает.Я получаю Неизвестную ошибку поля.

from whoosh.fields import Schema, TEXT, KEYWORD, ID, STORED
from whoosh.analysis import StemmingAnalyzer
schema = Schema(Title = ID(stored = True), Content = `enter code here`KEYWORD(stored = True))
import os, os.path
from whoosh import index
if not os.path.exists('inv_indexdir'):
    os.mkdir('inv_indexdir')
ix = index.create_in('inv_indexdir', schema)
import whoosh.index as index
ix = index.open_dir('inv_indexdir')
writer = ix.writer()
writer.add_document(title = u'Title', content = u'Content', path = u'json_data.json')

Как создать инвертированный индекс, содержащий информацию о количестве вхождений каждого слова в каждом документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как создать инвертированный индекс, содержащий информацию о количестве вхождений каждого слова в каждом документе

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы