нужно искать номер социального страхования в тысячах документов (.doc, .docx, .pdf) в C # - PullRequest
0 голосов
/ 30 декабря 2010

Какой самый лучший способ доступа к документам (открытие и чтение только текста), чтобы поиск был быстрее. Я уже пытался использовать объект Microsoft Office Word, чтобы открыть и получить текст, создав текстовое приложение и открыв файлы. Я даже не могу пойти с многопоточностью, потому что либо мне нужно создать только одно текстовое приложение, которое не поможет мне в потоке, и если я создаю текстовое приложение в каждом потоке, система не может справиться с этим. Как вы предлагаете мне идти.

Заранее спасибо

1 Ответ

0 голосов
/ 30 декабря 2010

Ах ... вернитесь к чтению документации вашей операционной системы. Уже довольно давно (то есть, много лет) существует система индексации и поиска, в которую можно подключить множество вещей (если вы установите соответствующие фильтры, загружаемые из Microsoft, Adobe и т. Д.).

Это создает полнотекстовый индекс, который затем имеет API для поиска. НАМНОГО более эффективно для многократного поиска большого количества документов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...