Сохранить структуру реляционной базы данных в индексе Solr? - PullRequest
1 голос
/ 14 декабря 2009

Мне удалось импортировать данные через solr DIH.

В моей базе данных у меня есть 4 таблицы:

threads: id, user_id, country_id

tags: id

thread_tag_map: thread_id, tag_id

countries: id

posts: id, thread_id

Я хочу, чтобы каждый документ в solr состоял из:

thread_id
tag_id
country_id
post_id

Например:

thread_id: 1
tag_id: 23
tag_id: 34
country_id: 43
post_id: 4
post_id: 23
post_id: 23

Как мне это отобразить?

Мне не удалось настроить data-config.xml для этого. Я безуспешно следовал учебнику по DIH.

Вот мой schema.xml:

<schema name="example" version="1.2">
  <types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true"/>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="uuid" class="solr.UUIDField" indexed="true" />
    <fieldType name="text_rev" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.ReversedWildcardFilterFactory" withOriginal="true"
           maxPosAsterisk="3" maxPosQuestion="2" maxFractionAsterisk="0.33"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>
 </types>


 <fields>
   <field name="id" type="uuid" indexed="true" stored="true" default="NEW"/>
   <field name="threads.title" type="text_rev" indexed="true" stored="true"/>
   <field name="posts.body" type="text_rev" indexed="true" stored="true"/>
   <dynamicField name="*id" type="int" indexed="false" stored="true"/>
 </fields>

<uniqueKey>id</uniqueKey>

 <defaultSearchField>posts.body</defaultSearchField>

 <solrQueryParser defaultOperator="OR"/>
</schema>

1 Ответ

2 голосов
/ 21 декабря 2009

Похоже, вы просто хотите определить эти поля:

thread_id

tag_id

country_id

post_id

как индексированные «строковые» поля в schema.xml. post_id должен быть многозначным = "true". См. Стандартные файлы schema.xml для рекомендаций по форматированию. Или ...

http://wiki.apache.org/solr/SchemaXml

Единственная сложность здесь - это на самом деле запрос базы данных, а не настройка solr. Просто напишите запрос JOIN, где вы можете получить все необходимые вам идентификаторы и использовать клиентскую библиотеку solr для вашего языка, чтобы создать простую структуру данных, например (json-y):

[{"thread_id":"1",
  "tag_id":"14",
  "country_id":"2",
  "post_id":["5",
             "7",
             "18"
            ]
},...and more...]

Поскольку Solr не является СУБД, вам придется подделывать результаты поиска, выполняя несколько запросов или используя подзапросы. Другим вариантом может быть использование Solr для извлечения вашей темы или публикации с помощью полнотекстового поиска, а затем использование идентификатора оттуда для выполнения запроса MySQL, который даст вам все остальное, что вам нужно.

...