Какое решение для хранения используется поисковыми системами для хранения индексов для обеспечения эффективных запросов и масштабируемости? - PullRequest
0 голосов
/ 20 февраля 2020

Есть много статей о том, как поисковые системы выполняют индексацию, но не смогли найти никакой информации о том, как они хранят эти проиндексированные записи таким образом, чтобы обеспечить быстрый запрос с масштабируемостью. Может ли кто-нибудь объяснить механизмы хранения индекса, используемые в поисковых системах, или указать на какую-либо статью?

1 Ответ

0 голосов
/ 24 февраля 2020

Solr позволяет быстро получать ответы на запросы поиска, поскольку вместо поиска по тексту выполняется поиск по индексу. Это похоже на поиск страниц в книге, связанной с ключевым словом, путем сканирования индекса в конце книги, в отличие от поиска по каждому слову на каждой странице книги.

Этот тип индекса называется inverted index, потому что она инвертирует page-centric структуру данных (page-> words) в keyword-centric структуру данных (word-> pages).

Inverted index является основным термином в области Information Retrieval и Natural Language Processing. Возьмите документ, запишите все уникальные слова, встречающиеся в этом документе, а также их частоту. Здесь вы готовы с вашим собственным инвертированным индексом. Solr создает аналогичный инвертированный индекс документов, размещенных в его ядре, с использованием определенной схемы. Schema - это синяя печать, которая помогает Solr в создании индексного индекса документов, предоставляя набор предопределенных полей в файле schema.xml.

...