Я реализовал дерево суффиксов в Python для полнотекстового поиска, и оно работает очень хорошо.Но есть проблема: индексированный текст может быть очень большим, поэтому у нас не будет всей структуры в ОЗУ.
ИЗОБРАЖЕНИЕ: Дерево суффиксов для слова BANANAS
(в моем сценарии представьте, что дерево в 100000 раз больше).
Итак, немного изучив его, я нашел модуль pickle
, отличный модуль для Python "загрузка "и" сброс "объектов из / в файлы, и угадайте, что?Это прекрасно работает с моей структурой данных.
Итак, сокращая длинный рассказ: Какова будет лучшая стратегия для хранения и извлечения этой структуры на / с диска?Я имею в виду, что решением может быть сохранение каждого узла в файле и загрузка его с диска всякий раз, когда это необходимо, но это не самый лучший вариант (слишком много обращений к диску).
Сноска: Несмотря на то, что я пометил этот вопрос как python , язык программирования не является важной частью вопроса, стратегия хранения / извлечения диска - это действительно главный вопрос.