Как найти строки и строковые шаблоны в наборе многих файлов? - PullRequest
0 голосов
/ 23 сентября 2011

У меня есть коллекция из примерно двух миллионов текстовых файлов, что составляет около 10 ГБ без сжатия. Я хотел бы найти документы, содержащие фразы в этой коллекции, которые выглядят как «каждый раз» или «Билл Клинтон» (простое сопоставление строк без учета регистра). Я также хотел бы найти фразы с нечетким содержанием; например "неделями".

Я пытался индексировать с помощью Lucene, но он не очень хорошо находит фразы, содержащие стоп-слова, поскольку по умолчанию они удаляются во время индексации. xargs и grep - медленное решение. Что быстро и подходит для такого количества данных?

1 Ответ

0 голосов
/ 23 сентября 2011

вы можете использовать базу данных postgreSQL. Существует реализация полнотекстового поиска, и с помощью словарей вы можете определить свои собственные стоп-слова. Я не знаю, сильно ли это поможет, но я бы попробовал.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...