Индексируйте различные типы документов, используя Solr - PullRequest
0 голосов
/ 02 апреля 2019

Мне нужно индексировать различные типы документов JSON, каждый документ JSON может быть в любом формате, может иметь вложенные объекты JSON (не имеет элемента управления). Как только индексация будет завершена, появится возможность поиска. Поскольку у нас нет элемента управления для схемы или формата документа JSON, мы решили использовать опцию без схемы. Застрял в следующих вопросах:

  • Все значения преобразуются в список из-за конфигураций в updateProcessor 'AddSchemaFieldsUpdateProcessorFactory'.
    • Пример: тип данных String сопоставлен с text_general, он установлен multiValued = true.
    • Если я определю поле в управляемой схеме, тогда все в порядке.
    • Ввод: {"firstname":<b>"ASGASGKSAJHAJS"</b>} Выход: {"firstname":<b>["ASGASGKSAJHAJS"]</b>}
Все вложенные документы преобразуются в плоскую структуру {"firstname":"ASGASGKSAJHAJS", <b>"address":{"addressLine1":"4216 jshakjfhajh"}}</b> превращается в {"firstname":"ASGASGKSAJHAJS", <b>"address.addressLine1":"4216 jshakjfhajh"}</b>

Я пытаюсь вслепую индексировать документы любого типа (например, в формате JSON). Когда я ищу ожидающий ответ в формате, аналогичном запросу (во время индексации) с минимальными изменениями конфигурации Solr. Пока я имею дело только с JSON, следующим требованием для индексации PDF. Для моего случая использования Solr - правильный выбор, или я должен рассмотреть другие варианты?

Я новичок в Solr, изучил документацию и статьи, не нашел ни одного простого способа преодоления вышеуказанных проблем. Любое руководство будет оценено.

...