Не знаю, если это то, что вы просили. Но более общий ответ заключается в том, что они используют / реализуют инвертированный индекс . Особенности того, как Lucene хранит его, вы можете найти в форматах файлов (как сказал Милан).
Но общая идея состоит в том, что они хранят структуру данных Inverted Index и другие вспомогательные структуры данных, чтобы помочь быстро отвечать на запросы. Например, он хранит вектор норм для каждого документа и IDF каждого термина ( частота обратных документов ). Lucene также хранит фактические поля документа, но они находятся за пределами инвертированного индекса.