У меня есть коллекция из примерно двух миллионов текстовых файлов, что составляет около 10 ГБ без сжатия. Я хотел бы найти документы, содержащие фразы в этой коллекции, которые выглядят как «каждый раз» или «Билл Клинтон» (простое сопоставление строк без учета регистра). Я также хотел бы найти фразы с нечетким содержанием; например "неделями".
Я пытался индексировать с помощью Lucene, но он не очень хорошо находит фразы, содержащие стоп-слова, поскольку по умолчанию они удаляются во время индексации. xargs и grep - медленное решение. Что быстро и подходит для такого количества данных?