Question

У меня есть коллекция из примерно двух миллионов текстовых файлов, что составляет около 10 ГБ без сжатия. Я хотел бы найти документы, содержащие фразы в этой коллекции, которые выглядят как «каждый раз» или «Билл Клинтон» (простое сопоставление строк без учета регистра). Я также хотел бы найти фразы с нечетким содержанием; например "неделями".

Я пытался индексировать с помощью Lucene, но он не очень хорошо находит фразы, содержащие стоп-слова, поскольку по умолчанию они удаляются во время индексации. xargs и grep - медленное решение. Что быстро и подходит для такого количества данных?

Baptiste Pernet · Answer 1 · 23 сентября 2011

вы можете использовать базу данных postgreSQL. Существует реализация полнотекстового поиска, и с помощью словарей вы можете определить свои собственные стоп-слова. Я не знаю, сильно ли это поможет, но я бы попробовал.

Как найти строки и строковые шаблоны в наборе многих файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как найти строки и строковые шаблоны в наборе многих файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов