У нас есть большой набор объектов, которые включают свойства составления и имени, оба строковых значения, которые содержат значения с большим количеством дубликатов, какова будет подходящая структура данных для хранения строк, которые могут быть доступны для поиска и небольшого размера?
Данные включают в себя множество названий химических веществ и продуктов, которые являются дубликатами или отличаются незначительно. Я хотел бы иметь возможность хранить строковое содержимое объектов в сжатом формате, в котором также можно выполнять поиск.
Я экспериментировал с Tries для создания индекса с возможностью быстрого поиска по именам, но в настоящее время он дополняет хранение строковых данных каждого объекта.
Эти данные являются статическими и распространяются в виде отдельного двоичного файла вместе с приложением.