Облако тегов от Solr - PullRequest
       19

Облако тегов от Solr

3 голосов
/ 21 апреля 2011

Кажется, я застрял за логикой облачного тега Solr. Прежде всего, я использую OpenNLP для анализа своих документов и получения из них релевантных слов, поэтому каждый отдельный документ разбивается на n слов. И вот как выглядит мой ответ Solr:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
</docID>

Я считаю, что должен быть способ интегрировать слова здесь. Сначала я подумал о чем-то вроде этого:

<docID>
<title>My Doc Title</title>
<content>My Doc Title</content>
<date_published>My Doc Title</date_published>
<words>word</words>
<words1>word1</words1>
<words2>word2</words2>
<words3>word3</words3>
<wordsN>wordN</wordsN>
</docID>

Но огранка была бы невозможна, так как я понятия не имею, сколько полей слов я бы получил за docID, тогда огранку пришлось бы выполнять между полями (что я даже не уверен, возможно) , Я пытаюсь найти возможные ответы, но, похоже, застрял ... в конце мне нужно сделать n слов, чтобы получить каждый документ, который у меня есть в моем указателе. Мысли будут высоко оценены.

1 Ответ

2 голосов
/ 21 апреля 2011

Я бы предложил использовать однозначное поле слов, которое содержит несколько значений и хранит список слов в документе.

с несвязанным количеством полей слова \ d + усложнит ситуацию.В однозначном поле многозначности вы можете получить все слова вместе с их частотами, которых должно быть достаточно для создания облака тегов.

...