Структуры данных для индексации - PullRequest
0 голосов
/ 23 мая 2019

Я только что прочитал об индексации и обнаружил, что есть две основные структуры данных, которые можно использовать для индексации, а именно: 1) инвертированные индексы 2) дерево суффиксов

Так что мне кажется, что дерево суффиксов естественно из-заего структурам не нужно использовать запросы соединения для ответа на фразы, если он индексирует текст всего документа как одну строку.

Так почему же люди все еще используют / говорят об инвертированном индексе?

1 Ответ

0 голосов
/ 23 мая 2019

Деревья суффиксов могут легко отвечать на запросы точных фраз, но инвертированные индексы более универсальны и полезны для всего остального, что вам нужно, например, для определения границ, сопоставления синонимов, ранжирования результатов и т. Д., Если только вы не расширили свое дерево суффиксов, включив в него информацию инвертированного индекса.

Кроме того, запросы на точные фразы не так часто встречаются, а деревья суффиксов намного сложнее, медленнее в построении и требуют гораздо больше памяти.Для типичных приложений полнотекстового поиска слишком много платить за то, что вы получаете.

...