Постойте, вам нужно провести какое-то исследование, прежде чем вынимать стоп-слова (иначе говоря, шумовые слова, ненужные слова). Размер индекса и ресурсы обработки - не единственные проблемы. Многое зависит от того, будут ли конечные пользователи печатать запросы, или вы будете работать с длинными автоматическими запросами.
Весь анализ журнала поиска показывает, что люди, как правило, вводят от одного до трех слов в запросе. Когда это все, с чем приходится искать, мы не можем ничего потерять. Например, у коллекции может быть слово «авторское право» во многих документах, что делает его очень распространенным, но если в индексе нет слова, невозможно выполнить точный поиск по фразе или ранжирование по релевантности. Кроме того, есть совершенно законные причины для поиска наиболее распространенных слов: люди могут искать «Кто» или, что еще хуже, «The».
Таким образом, несмотря на то, что есть технические проблемы, которые необходимо рассмотреть, и удаление стоп-слов является одним из решений, оно может быть не правильным решением для общей проблемы, которую вы пытаетесь решить.