Вы можете сделать многое, но это действительно чрезмерный объем работы.
Файлы bzip2 состоят из кусков.Вы можете разделить файл на части, полнотекстовые индексы и сохранить индексы.Если у вас есть некоторое представление о ключевых словах, вы можете отфильтровать ваши индексы, в противном случае вы получите полный индекс хаоса из всего текста.Как правило, это примерно в 10-100 раз больше размера исходного несжатого документа.
Если есть только определенные места, где встречаются слова для индексации, или вы можете ограничить количество слов для индексации И Поиски гораздо чаще, чем документы, которые вы можете сделать этой работой.
Идея явно украдена отсюда: https://www.thanassis.space/buildWikipediaOffline.html